← 返回博客

研究雷达人脸替换arXiv2026年6月

每月 arXiv 雷达

2026 年 6 月人脸替换论文：会话式说话人脸、快速肖像动画与隐私保护

2026 年 6 月的人脸替换研究分成两个产品方向：更具交互性的说话人脸，以及更强的未授权身份迁移防护。本月重点不只是单个换脸模型，而是速度、多人物行为和保护机制等系统要求。

本月趋势判断

本月显示合成技术正在走向交互系统，而防护也变得更贴合具体威胁模型。这正是买方需求所在：可信动作、低延迟，以及防止滥用的护栏。

论文 012026-06-30cs.CV

面向会话式说话人脸生成的灵活、自然、高效交互

作者与机构

Baiqin Wang

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Sen Chen

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Jiankuo Zhao

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Xiangyu Liu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Zhen Lei

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

CAIR, HKISI, Chinese Academy of Sciences

School of Computer Science and Engineering, Faculty of Innovation Engineering, Macau University of Science and Technology

Xiangyu Zhu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

解决了什么问题

论文解决“只会说话的视频生成”和真实会话之间的差距：任意人数、长会话、非语言反馈和低延迟必须同时成立。

关键结果

作者报告在保持 30 FPS 实时生成的同时提升交互质量，这是在线会话使用的关键门槛。

摘要

InterTalk 面向会话式说话人脸生成：多个参与者在多轮中说话、聆听并相互反馈。它采用运动驱动架构、参与者反馈、迭代生成、面部组件解耦、新多人物数据集和 3D 人脸增强，实现 30 FPS 实时生成。

研究出发点

说话人脸系统正从单段视频走向持续代理、导师、助手和会议头像；聆听行为和轮次切换与唇同步同样重要。

方法概述

框架按参与者建模会话动态，利用其他说话者/聆听者的反馈运动，迭代细化行为，并拆分面部组件，使唇动、眨眼和反应动作可以分别改进。

论文总结

InterTalk 把人脸替换/说话头技术栈推进到交互式数字人。实际问题从“能不能给一段视频对口型”变成“能不能在实时约束下维持多角色可信交流”。

论文 022026-06-29cs.CV

SyncCache：利用非对称动态加速音频驱动肖像动画

作者与机构

Juncheng Ma

Shenzhen Graduate School, Peking University, China

Yuxuan Du

Shenzhen Graduate School, Peking University, China

Yanan Sun

Shanghai AI Laboratory, China

Zhening Xing

Shanghai AI Laboratory, China

Changlin Li

Tencent Hunyuan, China

Zhenyu Tang

Shenzhen Graduate School, Peking University, China

Bo Li

vivo, China

Peng-Tao Jiang

vivo, China

Li Yuan

Shenzhen Graduate School, Peking University, China

Daquan Zhou

Shenzhen Graduate School, Peking University, China

Yonghong Tian

Shenzhen Graduate School, Peking University, China

解决了什么问题

论文修正通用扩散缓存的错配：文本到视频假设无法覆盖音频驱动人脸中的空间与模态不平衡。

关键结果

该方法在 HunyuanVideo-Avatar 上最高加速 4.12 倍，在 Wan-S2V 上 3.75 倍，同时保持近乎无损的视觉质量和准确音频对齐。

摘要

SyncCache 是一种面向 DiT 音频驱动肖像动画的免训练加速方法。它观察到人物区域和音频条件运动比背景更动态，因此持续重算轻量音频块，同时缓存稳定的层间残差。

研究出发点

肖像动画扩散模型越来越强但推理慢；生产级头像系统需要不破坏唇同步与面部细节的加速。

方法概述

SyncCache 结合空间非对称探测、模态解耦缓存和内存自适应离线缓存选择。设计上持续重算音频敏感部分，在残差稳定处绕过昂贵 DiT block。

论文总结

SyncCache 的价值在于不重训生成器就降低推理成本。对头像产品来说，这意味着更快预览、更低云成本，以及交互式音频驱动肖像生成更接近可用。

论文 032026-06-30cs.CV

Phantom：结合潜在与空间约束的统一人脸替换深伪保护框架

作者与机构

Jungkon Kim

Samsung Electronics, AI Platform Center

Cheolseung Jung

Samsung Electronics, AI Platform Center

Jong-Min Choi

Samsung Electronics, AI Platform Center

Juseong Lee

Samsung Electronics, AI Platform Center

解决了什么问题

论文针对既有对抗保护的弱点：随机目标会产生模糊的潜在方向，无约束噪声会泄漏到与身份无关的区域。

关键结果

在 UniFace、INSwapper 和 SimSwap 上，Phantom 将 dodging 保护成功率分别提升 27.8%、25.6% 和 16.6%；在 impersonation 场景也最高提升 10.2%，并改善感知质量。

摘要

Phantom 是面向人脸替换深伪的主动防护框架。它合成身份偏移但属性保持的目标来引导潜在优化，并把扰动限制在语义相关脸部区域，从而提升保护强度和视觉质量。

研究出发点

深伪检测是事后反应；个人与品牌还需要在篡改视频生成前就让未授权换脸失败的控制手段。

方法概述

Phantom 联合优化潜在与空间约束：用属性保持目标构造身份感知方向，再只在换脸相关的语义面部区域施加掩码扰动。

论文总结

Phantom 的重要性在于把换脸防护当成独立威胁模型，而不是照搬人脸识别攻击。对消费者照片服务、名人和品牌保护来说，空间约束尤其关键，因为防护不能让源图明显受损。