저자 및 소속
Jingtao Zhou
School of Mathematical Science, University of Science and Technology of China
Department of Computer Science, City University of Hong Kong
Xuan Gao
School of Mathematical Science, University of Science and Technology of China
Dongyu Liu
School of Mathematical Science, University of Science and Technology of China
Junhui Hou
Department of Computer Science, City University of Hong Kong
Yudong Guo
School of Mathematical Science, University of Science and Technology of China
Juyong Zhang
School of Mathematical Science, University of Science and Technology of China
해결하는 문제
GSwap은 2D 생성과 얕은 3DMM 가정을 넘어섬으로써 비디오 헤드 스와핑을 더 사실적으로 만드는 것을 목표로 한다.
핵심 결과
저자들은 시각 품질, 시간적 일관성, 신원 보존, 3D 일관성에서 기존 헤드 스와핑 방법보다 더 나은 결과를 보고하며, 3D 인지형 스왑 파이프라인이 빠르게 성숙하고 있음을 보여준다.
초록
본 논문은 동적 neural Gaussian portrait prior로 강화된 새로운 일관적이고 사실적인 비디오 head-swapping 시스템 GSwap을 제안하며, 얼굴 및 머리 교체 분야의 state of the art를 크게 발전시킨다. 기존 방법들은 주로 2D 생성 모델이나 3D Morphable Face Models(3DMM)에 의존하는데, 이들은 낮은 3D 일관성, 부자연스러운 표정, 제한된 합성 품질과 같은 고유한 한계를 가진다. 또한 기존 기법은 전체적인 머리 모델링의 부족과 비효율적인 배경 블렌딩 때문에 full head-swapping 과제에서 어려움을 겪으며, 눈에 띄는 아티팩트와 정렬 오류를 자주 발생시킨다. 이러한 문제를 해결하기 위해 GSwap은 full-body SMPL-X 표면에 내재된 3D Gaussian feature field를 도입하여, 2D 인물 비디오를 동적 neural Gaussian field로 효과적으로 승격시킨다. 이 혁신은 자연스러운 머리-몸통 관계와 매끄러운 움직임 동역학을 유지하면서 고충실도이자 3D 일관적인 인물 렌더링을 보장한다. 학습을 용이하게 하기 위해, 소수의 참조 이미지만으로 사전학습된 2D 인물 생성 모델을 소스 머리 도메인에 적응시켜 효율적인 도메인 적응을 가능하게 한다. 또한 합성된 전경과 원본 배경을 조화롭게 통합하는 neural re-rendering 전략을 제안하여 블렌딩 아티팩트를 제거하고 사실성을 향상시킨다. 광범위한 실험은 GSwap이 시각 품질, 시간적 일관성, 신원 보존, 3D 일관성 등 여러 측면에서 기존 방법들을 능가함을 보여준다.
연구 출발점
비디오 face swapping은 빠르게 발전했지만, 많은 시스템은 여전히 사용자가 가장 먼저 알아차리는 세부 요소에서 실패한다. 3D 일관성, 자연스러운 머리 움직임, 그리고 교체된 머리와 나머지 신체 사이의 매끄러운 블렌딩이다. 저자들은 2D 생성기와 3DMM 기반 파이프라인의 한계, 특히 과제가 단순한 얼굴 교체에서 전체 머리 교체로 확장될 때 두드러지는 아티팩트에 주목한다. 이들의 전제는 상업적 수준의 사실적인 스와핑이 이제 고립된 얼굴 텍스처 편집이 아니라 완전한 동적 인물 표현의 모델링에 달려 있다는 점이다.
방법
GSwap은 SMPL-X 신체 표면에 내장된 동적 neural Gaussian portrait 표현을 도입해 얼굴을 고립된 2D 패치로 다루지 않고 머리, 몸통, 움직임을 함께 모델링한다. 시스템은 소수의 참조 이미지를 사용해 사전학습된 인물 생성기를 소스 신원에 적응시킨 뒤 neural re-rendering을 수행하여 합성 전경이 원본 배경과 더 자연스럽게 통합되도록 한다. 이 조합은 신원을 보존하고 시간적 움직임을 안정화하며, 이전 스와핑 시스템에서 흔했던 들뜬 느낌이나 정렬 불량을 피하도록 설계되었다.
논문 요약
이 논문은 고급 얼굴 교체가 더 이상 2D 이미지 편집 트릭이 아니라 3D 비디오 합성 문제로 바뀌고 있음을 강하게 보여준다. GSwap은 머리를 완전한 동적 인물의 일부로 다룸으로써 사용자가 가장 중요하게 보는 움직임, 구조, 블렌딩의 사실성을 개선한다. 엔터프라이즈급 face swap 기술을 추적하는 사람이라면 2026년 3월에 꼭 볼 만한 논문 중 하나다.