作者与机构
Jingtao Zhou
School of Mathematical Science, University of Science and Technology of China
Department of Computer Science, City University of Hong Kong
Xuan Gao
School of Mathematical Science, University of Science and Technology of China
Dongyu Liu
School of Mathematical Science, University of Science and Technology of China
Junhui Hou
Department of Computer Science, City University of Hong Kong
Yudong Guo
School of Mathematical Science, University of Science and Technology of China
Juyong Zhang
School of Mathematical Science, University of Science and Technology of China
解决了什么问题
GSwap 的目标是突破 2D 生成和浅层 3DMM 假设,让视频头部替换更真实、更稳定。
关键结果
作者报告称,在视觉质量、时序一致性、身份保持和 3D 一致性方面,GSwap 均优于先前方法,说明 3D 感知的换脸管线正在快速成熟。
摘要
本文提出 GSwap,一种基于动态神经高斯肖像先验的一致且真实的视频头部替换系统,在人脸与头部替换任务上显著推进了当前水平。与主要依赖 2D 生成模型或 3D 可变形人脸模型(3DMM)的既有方法不同,GSwap 旨在克服它们在 3D 一致性差、表情不自然以及合成质量受限等方面的固有缺陷。现有技术在完整头部替换上也往往表现不足,因为缺少整体头部建模和有效背景融合,经常出现明显伪影与错位。为解决这些问题,GSwap 在完整身体的 SMPL-X 表面中嵌入内在的 3D Gaussian 特征场,将 2D 肖像视频提升为动态神经高斯场,从而在保留自然头颈关系与运动动态的同时,实现高保真、具备 3D 一致性的肖像渲染。训练方面,作者将一个预训练的 2D 肖像生成模型仅用少量参考图像适配到源头部域,实现高效域自适应;同时提出神经重渲染策略,将生成的前景与原始背景更自然地融合,消除混合伪影并增强真实感。实验结果表明,GSwap 在视觉质量、时间一致性、身份保持和 3D 一致性等多个维度上均优于现有方法。
研究出发点
视频换脸虽然进步很快,但很多系统在用户最敏感的细节上仍然表现不足:3D 一致性、自然头部运动,以及替换头部与身体其他部分的无缝衔接。作者的出发点正是 2D 生成器和 3DMM 管线在这些问题上的局限,尤其是当任务从单纯 face replacement 升级为完整 head replacement 时,伪影会被明显放大。换句话说,要达到更真实的商业级效果,系统必须从“改一张脸”转向“建一个动态完整人像”。
方法概述
GSwap 的核心是把动态神经高斯人像表征嵌入到 SMPL-X 身体表面之中,使系统不再把人脸视作一个孤立的 2D 区块,而是同时建模头部、躯干与运动关系。模型会先利用少量参考图把预训练人像生成器适配到源身份,再通过神经重渲染让生成前景与原始背景更自然地融合。这样的设计目标,是同时守住身份一致性、时序稳定性以及头肩整体观感,避免早期方法常见的“头是贴上去的”感觉。
论文总结
这篇论文释放了一个非常明确的信号:高质量换脸正在从二维图像编辑问题,演变为三维视频生成问题。GSwap 通过把头部放回完整动态人像里建模,重点改善了用户最在意的几个方面:运动自然度、结构稳定性以及融合效果。对于关注企业级换脸能力的人来说,它是 2026 年 3 月最值得看的论文之一。