← 返回博客
研究雷达人脸换脸arXiv2026年3月

每月 arXiv 雷达

2026 年 3 月换脸论文速递:3D 头部替换、任意参考身份视频与人脸扩散生成

2026 年 3 月的换脸研究同时向两个方向加速:一方面是更具 3D 一致性的视频头部替换,另一方面是更泛化的身份保持式生成系统,可以从任意参考中生成可控的人像或视频。对产品团队来说,这意味着换脸、头像生成和可控人脸合成之间的技术边界正在持续缩小。

本月趋势判断

本月的竞争重点已不再只是一次性身份迁移,而是时序一致性、3D 结构保持和多参考可控性。

论文 012026-03-24cs.CV

GSwap:基于 Dynamic Neural Gaussian Field 的逼真头部置换

作者与机构

Jingtao Zhou

School of Mathematical Science, University of Science and Technology of China

Department of Computer Science, City University of Hong Kong

Xuan Gao

School of Mathematical Science, University of Science and Technology of China

Dongyu Liu

School of Mathematical Science, University of Science and Technology of China

Junhui Hou

Department of Computer Science, City University of Hong Kong

Yudong Guo

School of Mathematical Science, University of Science and Technology of China

Juyong Zhang

School of Mathematical Science, University of Science and Technology of China

解决了什么问题

GSwap 的目标是突破 2D 生成和浅层 3DMM 假设,让视频头部替换更真实、更稳定。

关键结果

作者报告称,在视觉质量、时序一致性、身份保持和 3D 一致性方面,GSwap 均优于先前方法,说明 3D 感知的换脸管线正在快速成熟。

摘要

本文提出 GSwap,一种基于动态神经高斯肖像先验的一致且真实的视频头部替换系统,在人脸与头部替换任务上显著推进了当前水平。与主要依赖 2D 生成模型或 3D 可变形人脸模型(3DMM)的既有方法不同,GSwap 旨在克服它们在 3D 一致性差、表情不自然以及合成质量受限等方面的固有缺陷。现有技术在完整头部替换上也往往表现不足,因为缺少整体头部建模和有效背景融合,经常出现明显伪影与错位。为解决这些问题,GSwap 在完整身体的 SMPL-X 表面中嵌入内在的 3D Gaussian 特征场,将 2D 肖像视频提升为动态神经高斯场,从而在保留自然头颈关系与运动动态的同时,实现高保真、具备 3D 一致性的肖像渲染。训练方面,作者将一个预训练的 2D 肖像生成模型仅用少量参考图像适配到源头部域,实现高效域自适应;同时提出神经重渲染策略,将生成的前景与原始背景更自然地融合,消除混合伪影并增强真实感。实验结果表明,GSwap 在视觉质量、时间一致性、身份保持和 3D 一致性等多个维度上均优于现有方法。

研究出发点

视频换脸虽然进步很快,但很多系统在用户最敏感的细节上仍然表现不足:3D 一致性、自然头部运动,以及替换头部与身体其他部分的无缝衔接。作者的出发点正是 2D 生成器和 3DMM 管线在这些问题上的局限,尤其是当任务从单纯 face replacement 升级为完整 head replacement 时,伪影会被明显放大。换句话说,要达到更真实的商业级效果,系统必须从“改一张脸”转向“建一个动态完整人像”。

方法概述

GSwap 的核心是把动态神经高斯人像表征嵌入到 SMPL-X 身体表面之中,使系统不再把人脸视作一个孤立的 2D 区块,而是同时建模头部、躯干与运动关系。模型会先利用少量参考图把预训练人像生成器适配到源身份,再通过神经重渲染让生成前景与原始背景更自然地融合。这样的设计目标,是同时守住身份一致性、时序稳定性以及头肩整体观感,避免早期方法常见的“头是贴上去的”感觉。

论文总结

这篇论文释放了一个非常明确的信号:高质量换脸正在从二维图像编辑问题,演变为三维视频生成问题。GSwap 通过把头部放回完整动态人像里建模,重点改善了用户最在意的几个方面:运动自然度、结构稳定性以及融合效果。对于关注企业级换脸能力的人来说,它是 2026 年 3 月最值得看的论文之一。

论文 022026-03-26cs.CV

AnyID:基于任意视觉参考的超高保真通用身份保持视频生成

作者与机构

Jiahao Wang

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Hualian Sheng

Alibaba Cloud Computing

Sijia Cai

Alibaba Cloud Computing

Yuxiao Yang

Tsinghua University

Weizhan Zhang

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Caixia Yan

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Bing Deng

Alibaba Cloud Computing

Jieping Ye

Alibaba Cloud Computing

解决了什么问题

AnyID 通过统一异构参考并引入主参考锚点,来解决身份迁移过程中的歧义问题。

关键结果

论文声称其在身份保真度和属性级控制能力上都显著优于以往的身份保持视频生成基线。

摘要

身份保持视频生成能够让用户用自己喜爱的角色或人物制作视频,因此在创意表达上极具潜力。但现有方法通常围绕单一身份参考进行设计和优化,这一设定难以适应真实世界中多样化的输入形式,也让新场景下的身份复现变得先天含糊。为了解决这些问题,本文提出 AnyID,一个支持任意视觉参考输入、具备超高身份保真度的身份保持视频生成框架。其核心贡献有两点:第一,提出可扩展的 omni-referenced 架构,将人脸、肖像、视频等异构身份参考统一编码为一致表征;第二,提出 primary-referenced 生成范式,指定一个参考作为规范锚点,并通过新的 differential prompt 机制实现精细的属性级控制。作者基于大规模精细整理的数据集进行训练,以确保模型的稳健性与高保真输出,随后再利用强化学习进行最终微调。该阶段依赖于由人工成对比较视频构建的偏好数据集,评价标准聚焦两个关键维度:身份保真度与提示控制能力。综合实验结果表明,AnyID 在不同任务设定下都实现了极高的身份一致性,并在属性级可控性上优于现有方法。

研究出发点

很多身份保持视频生成系统默认用户能提供一张干净、标准、足够代表身份的参考图,但真实产品里几乎从来不是这样。用户往往会上传自拍、写真、短视频截图等各种质量不一的素材,而单参考条件在这种情况下很容易暴露出身份表达的歧义。本文的研究出发点,就是构建一个更灵活的框架,让系统能够吸收异构身份信息,而不是假设“一张图就够了”。

方法概述

AnyID 通过 omni-referenced 架构把人脸、肖像和视频等多种参考统一到一个共享身份表征之中,同时指定一个主参考作为生成锚点。在此基础上,模型又加入 differential prompt 机制,使用户能够在不明显破坏身份一致性的情况下调整属性,并利用基于人工偏好的强化学习微调进一步提升保真度与可控性。整体来看,这个系统的目标是把现实世界里杂乱无章的参考输入,转化为更稳定、更可用的身份条件生成流程。

论文总结

AnyID 最重要的价值,不只是“身份保持更强”,而是它建立了一个更接近真实产品的前提:用户输入本来就是多参考、冲突的、甚至不完整的。它并没有逃避这种复杂性,而是围绕这种复杂输入重新设计了生成系统。因此,这篇论文对下一代换脸工具、头像系统和个性化媒体生产都具有很高参考价值。

论文 032026-03-30cs.CV

MMFace-DiT:面向高保真多模态人脸生成的双流 Diffusion Transformer

作者与机构

Bharath Krishnamurthy

University of North Texas, Denton, TX, USA

Ajita Rattani

University of North Texas, Denton, TX, USA

解决了什么问题

MMFace-DiT 旨在实现高保真的多模态人脸生成,更好地协调语义提示与空间结构,这种能力同样有利于高级换脸工作流。

关键结果

作者报告称,相较 6 个先前的多模态人脸生成基线,模型在视觉保真度和 prompt 对齐上提升约 40%。

摘要

近年来,多模态人脸生成模型通过在文本条件之外加入分割掩码、草图或边缘图等空间先验,缓解了传统文生图扩散模型在空间控制上的不足,使生成结果能够同时对齐高层语义意图与底层结构布局。然而,大多数现有方法只是给预训练文生图流水线附加控制模块,或将多个单模态网络拼接起来。这类临时式设计继承了原有架构限制,参数重复严重,并且在多模态冲突或潜空间不匹配时容易失效,难以实现语义与空间信息的真正协同融合。为此,本文提出 MMFace-DiT,一个面向协同多模态人脸合成的统一双流扩散 Transformer。其核心创新在于双流 Transformer block:空间条件(如 mask/sketch)与语义条件(文本)分别并行处理,再通过共享的 Rotary Position-Embedded(RoPE)注意力机制进行深度融合。该设计可避免某一模态主导生成过程,并同时强化对文本语义和结构先验的遵循,从而实现更强的空间-语义一致性。此外,作者还设计了新的 Modality Embedder,使单一模型即可动态适配不同类型的空间条件,而无需重新训练。实验表明,MMFace-DiT 在视觉保真度和提示对齐度上相较 6 个当前最先进的多模态人脸生成模型提升约 40%,为端到端可控生成提供了一种更灵活的新范式。代码与数据集已在项目页公开:https://vcbsl.github.io/MMFace-DiT/

研究出发点

多模态人脸生成虽然在可控性上不断进步,但很多方法依然是在文本扩散模型外面外挂 mask、sketch 等控制条件,这类拼装式设计在语义提示和空间约束发生冲突时尤其容易失效。恰恰在这些最考验系统可控性的场景里,用户反而最需要模型保持稳定。因此本文的出发点是:多模态人脸生成需要一种原生的融合架构,而不是继续堆叠外部控制模块。

方法概述

MMFace-DiT 采用双流扩散 Transformer,并行处理语义输入与空间控制,再通过共享注意力机制完成深度融合,而不是在后期做拼接式整合。论文还加入 modality embedder,使同一个 backbone 能适配 mask、sketch 等不同空间条件,而不必为每一种控制形式单独训练专用模型。这样的设计让它更像一个统一的人脸生成底座,也为未来更强的换脸式生成系统提供了更合理的基础。

论文总结

这篇论文的重要性在于,可控人脸生成正逐渐成为换脸、头像与媒体编辑系统的基础设施。MMFace-DiT 提出的核心观点是:质量提升的关键在于更好的多模态融合,而不只是更大的扩散模型。如果这一方向持续成立,那么类似架构很可能会影响下一代高保真人脸编辑系统的设计。