← 블로그로 돌아가기

연구 레이더얼굴 스와핑arXiv2026년 6월

월간 arXiv 레이더

2026년 6월 얼굴 스와핑 논문: 대화형 얼굴, 빠른 초상 애니메이션, 프라이버시 보호

2026년 6월 얼굴 스와핑 연구는 더 상호작용적인 talking face와 무단 신원 이전 방어라는 두 제품 방향으로 나뉜다. 속도, 다인 행동, 보호가 핵심이다.

이번 달이 보여주는 신호

이번 달은 합성이 상호작용 시스템으로 가고 방어가 threat-model-specific해짐을 보여준다. 자연스러운 motion, 낮은 latency, misuse 방지가 구매 요구다.

논문 012026-06-30cs.CV

대화형 말하는 얼굴 생성을 위한 유연하고 자연스러운 효율적 상호작용

저자 및 소속

Baiqin Wang

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Sen Chen

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Jiankuo Zhao

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Xiangyu Liu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Zhen Lei

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

CAIR, HKISI, Chinese Academy of Sciences

School of Computer Science and Engineering, Faculty of Innovation Engineering, Macau University of Science and Technology

Xiangyu Zhu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

해결하는 문제

말하기만 하는 생성과 실제 대화 사이의 간극을 다룬다. 임의 참가자 수, 긴 세션, 비언어 피드백, 낮은 지연이 함께 필요하다.

핵심 결과

저자들은 30 FPS 실시간 생성을 유지하며 상호작용 품질을 높였다고 보고한다. 온라인 대화에 중요한 기준이다.

초록

InterTalk는 여러 참가자가 여러 턴 동안 말하고 듣고 반응하는 대화형 talking-face 생성을 목표로 한다. motion 기반 구조, feedback, iterative generation, facial disentanglement, 새 데이터셋, 3D 증강으로 30 FPS를 달성한다.

연구 출발점

talking-face 시스템은 단일 클립에서 지속형 에이전트, 튜터, 회의 아바타로 이동 중이며, 듣기 행동과 턴 전환이 lip sync만큼 중요하다.

방법

프레임워크는 참가자별 대화 동역학을 모델링하고 다른 화자/청자의 feedback motion을 사용하며, lip motion, eye blinking, response gesture를 분리해 개선한다.

논문 요약

InterTalk는 face-swapping/talking-head 스택을 상호작용형 디지털 휴먼으로 확장한다. 질문은 클립 lip-sync에서 실시간 다역할 대화를 유지할 수 있느냐로 바뀐다.

논문 022026-06-29cs.CV

SyncCache: 비대칭 동역학을 활용한 빠른 오디오 기반 초상 애니메이션

저자 및 소속

Juncheng Ma

Shenzhen Graduate School, Peking University, China

Yuxuan Du

Shenzhen Graduate School, Peking University, China

Yanan Sun

Shanghai AI Laboratory, China

Zhening Xing

Shanghai AI Laboratory, China

Changlin Li

Tencent Hunyuan, China

Zhenyu Tang

Shenzhen Graduate School, Peking University, China

Bo Li

vivo, China

Peng-Tao Jiang

vivo, China

Li Yuan

Shenzhen Graduate School, Peking University, China

Daquan Zhou

Shenzhen Graduate School, Peking University, China

Yonghong Tian

Shenzhen Graduate School, Peking University, China

해결하는 문제

일반 diffusion caching의 불일치를 고친다. text-to-video 가정은 오디오 기반 얼굴의 공간/모달 불균형을 포착하지 못한다.

핵심 결과

HunyuanVideo-Avatar에서 최대 4.12배, Wan-S2V에서 3.75배 가속을 보고하며 시각 품질과 오디오 정렬을 거의 유지한다.

초록

SyncCache는 DiT 기반 오디오 구동 초상 애니메이션을 위한 training-free 가속 방법이다. 사람 영역과 오디오 조건 모션이 배경보다 동적임을 이용한다.

연구 출발점

초상 애니메이션 diffusion 모델은 강력하지만 느리다. 프로덕션 아바타는 lip sync와 얼굴 디테일을 깨지 않는 가속이 필요하다.

방법

SyncCache는 Spatially-Asymmetric Probing, Modality-Decoupled Caching, memory-adaptive offline cache selection을 결합한다. 오디오 민감 부분은 재계산하고 안정 residual은 캐시한다.

논문 요약

SyncCache는 생성기를 재학습하지 않고 추론 비용을 낮춘다. 아바타 제품에는 더 빠른 preview, 낮은 cloud 비용, 상호작용형 오디오 기반 생성 가능성을 의미한다.

논문 032026-06-30cs.CV

Phantom: 잠재 및 공간 제약을 갖춘 통합 얼굴 스왑 딥페이크 보호 프레임워크

저자 및 소속

Jungkon Kim

Samsung Electronics, AI Platform Center

Cheolseung Jung

Samsung Electronics, AI Platform Center

Jong-Min Choi

Samsung Electronics, AI Platform Center

Juseong Lee

Samsung Electronics, AI Platform Center

해결하는 문제

기존 보호의 약점을 겨냥한다. random target은 모호한 latent direction을 만들고, 무제한 noise는 신원과 무관한 영역으로 퍼진다.

핵심 결과

UniFace, INSwapper, SimSwap에서 dodging 보호 성공률을 27.8%, 25.6%, 16.6% 높이고 impersonation도 최대 10.2% 개선한다.

초록

Phantom은 얼굴 스왑 딥페이크에 대한 사전 보호 프레임워크다. 신원은 이동시키되 속성은 보존한 target을 만들고, 의미 있는 얼굴 영역에 perturbation을 제한한다.

연구 출발점

딥페이크 탐지는 사후 대응이다. 개인과 브랜드는 조작 영상이 만들어지기 전 무단 face swap을 실패시키는 수단도 필요하다.

방법

Phantom은 latent와 spatial constraint를 함께 최적화한다. 속성 보존 target으로 identity-aware direction을 만들고, 교체에 중요한 의미 영역에만 masked perturbation을 적용한다.

논문 요약

Phantom은 face-swap 방어를 얼굴 인식 공격의 복사본이 아니라 별도 threat model로 다룬다. 사진 서비스와 브랜드 보호에서는 원본 이미지 손상을 줄이는 공간 제약이 중요하다.