← 블로그로 돌아가기
연구 레이더얼굴 교체arXiv2026년 4월

월간 arXiv 레이더

2026년 4월 얼굴 교체 논문: 리인액트먼트 제어, 토킹 헤드, 음성 보존 모션

명시적인 face swap 논문이 적어 동일 구매자가 평가하는 facial reenactment와 talking avatar까지 범위를 넓혔다.

이번 달이 보여주는 신호

경쟁력은 순수 시각 사실감에서 포즈, 감정, 음성 모션을 분리해 빠르고 안정적으로 생성하는 제어력으로 이동한다.

논문 012026-04-03cs.CV

MMTalker: 멀티모달 특징 융합 기반 다중 해상도 3D 토킹헤드 합성

저자 및 소속

Bin Liu

School of Communication and Information Engineering, Shanghai University, Shanghai, China

Zhixiang Xiong

Department of Electrical and Computer Engineering, Texas A&M University, College Station, TX, USA

Zhifen He

School of Communication and Information Engineering, Shanghai University, Shanghai, China

Bo Li

School of Communication and Information Engineering, Shanghai University, Shanghai, China

해결하는 문제

핵심 문제는 얼굴 교체와 facial reenactment에서 talking head synthesis, 3d facial animation, multimodal face generation와 관련된 병목을 해결해, 학술 지표뿐 아니라 구매, 컴플라이언스, 엔지니어링 관점에서도 평가 가능한 솔루션으로 만드는 것이다.

핵심 결과

결과는 정확도, 효율, 견고성 또는 일반화 개선을 강조한다. 기술 구매자에게 중요한 것은 이러한 개선이 배포 리스크를 낮추고 적용 범위를 넓히는지다.

초록

MMTalker는 다중 해상도 얼굴 기하와 멀티모달 특징 융합을 결합한 3D 음성 기반 토킹헤드 시스템이다. 메시 파라미터화, 미분 가능 샘플링, 그래프 합성곱, cross-attention을 사용해 생성 얼굴 움직임의 립싱크와 표현 디테일을 개선한다.

연구 출발점

동기는 얼굴 교체와 facial reenactment이 연구 benchmark에서 실제 시스템으로 이동하면서 talking head synthesis, 3d facial animation, multimodal face generation가 개인정보, 비용, 안정성, 사용자 경험에 직접 영향을 주기 때문이다.

방법

「MMTalker: Multiresolution 3D Talking Head Synthesis with Multimodal Feature Fusion」의 접근은 talking head synthesis, 3d facial animation, multimodal face generation를 위해 구조 설계, 학습 전략 또는 시스템 최적화를 결합한다. 이는 알고리즘을 실제 배포 가능한 제품 역량에 가깝게 만든다.

논문 요약

요약하면, 이 논문은 2026년 4월 얼굴 교체와 facial reenactment에서 talking head synthesis, 3d facial animation, multimodal face generation가 제품화와 엔터프라이즈 평가의 핵심 변수가 되고 있음을 보여준다.

논문 022026-04-21cs.CV

PortraitDirector: 제어 가능하고 실시간인 얼굴 리인액트먼트를 위한 계층적 분리 프레임워크

저자 및 소속

Chaonan Ji

Tongyi Lab, Alibaba Group

Jinwei Qi

Tongyi Lab, Alibaba Group

Sheng Xu

Tongyi Lab, Alibaba Group

Peng Zhang

Tongyi Lab, Alibaba Group

Bang Zhang

Tongyi Lab, Alibaba Group

해결하는 문제

핵심 문제는 얼굴 교체와 facial reenactment에서 facial reenactment, controllable avatars, real-time portrait animation와 관련된 병목을 해결해, 학술 지표뿐 아니라 구매, 컴플라이언스, 엔지니어링 관점에서도 평가 가능한 솔루션으로 만드는 것이다.

핵심 결과

결과는 정확도, 효율, 견고성 또는 일반화 개선을 강조한다. 기술 구매자에게 중요한 것은 이러한 개선이 배포 리스크를 낮추고 적용 범위를 넓히는지다.

초록

PortraitDirector는 얼굴 리인액트먼트를 단일 모션 전이 작업이 아니라 계층적 합성 문제로 다룬다. 포즈, 국소 표정, 의미적 감정을 분리한 뒤 런타임 최적화와 함께 재조합해 실시간 속도의 제어 가능한 고충실도 리인액트먼트를 목표로 한다.

연구 출발점

동기는 얼굴 교체와 facial reenactment이 연구 benchmark에서 실제 시스템으로 이동하면서 facial reenactment, controllable avatars, real-time portrait animation가 개인정보, 비용, 안정성, 사용자 경험에 직접 영향을 주기 때문이다.

방법

「PortraitDirector: A Hierarchical Disentanglement Framework for Controllable and Real-time Facial Reenactment」의 접근은 facial reenactment, controllable avatars, real-time portrait animation를 위해 구조 설계, 학습 전략 또는 시스템 최적화를 결합한다. 이는 알고리즘을 실제 배포 가능한 제품 역량에 가깝게 만든다.

논문 요약

요약하면, 이 논문은 2026년 4월 얼굴 교체와 facial reenactment에서 facial reenactment, controllable avatars, real-time portrait animation가 제품화와 엔터프라이즈 평가의 핵심 변수가 되고 있음을 보여준다.

논문 032026-04-23cs.CV

음성 보존 얼굴 표정 조작을 위한 시공간 일관 상관관계 학습

저자 및 소속

Tianshui Chen

Guangdong University of Technology, Guangzhou, China

Jianman Lin

Guangdong University of Technology, Guangzhou, China

Zhijing Yang

Guangdong University of Technology, Guangzhou, China

Chunmei Qing

South China University of Technology, Guangzhou, China

Guangrun Wang

Sun Yat-sen University, Guangzhou, China

Liang Lin

Sun Yat-sen University, Guangzhou, China

해결하는 문제

핵심 문제는 얼굴 교체와 facial reenactment에서 facial expression manipulation, speech-preserving editing, talking face control와 관련된 병목을 해결해, 학술 지표뿐 아니라 구매, 컴플라이언스, 엔지니어링 관점에서도 평가 가능한 솔루션으로 만드는 것이다.

핵심 결과

결과는 정확도, 효율, 견고성 또는 일반화 개선을 강조한다. 기술 구매자에게 중요한 것은 이러한 개선이 배포 리스크를 낮추고 적용 범위를 넓히는지다.

초록

이 논문은 말 내용과 맞는 입 움직임을 깨지 않으면서 감정을 바꾸는 음성 보존 얼굴 표정 조작을 연구한다. 얻기 어려운 쌍 데이터 대신 영역과 프레임 사이의 대응 패턴으로 표정 편집을 감독하는 시공간 일관 상관관계 학습을 제안한다.

연구 출발점

동기는 얼굴 교체와 facial reenactment이 연구 benchmark에서 실제 시스템으로 이동하면서 facial expression manipulation, speech-preserving editing, talking face control가 개인정보, 비용, 안정성, 사용자 경험에 직접 영향을 주기 때문이다.

방법

「Learning Spatial-Temporal Coherent Correlations for Speech-Preserving Facial Expression Manipulation」의 접근은 facial expression manipulation, speech-preserving editing, talking face control를 위해 구조 설계, 학습 전략 또는 시스템 최적화를 결합한다. 이는 알고리즘을 실제 배포 가능한 제품 역량에 가깝게 만든다.

논문 요약

요약하면, 이 논문은 2026년 4월 얼굴 교체와 facial reenactment에서 facial expression manipulation, speech-preserving editing, talking face control가 제품화와 엔터프라이즈 평가의 핵심 변수가 되고 있음을 보여준다.