作者与机构
Hao Wu
Information Engineering University, China
Xiangyang Luo
Information Engineering University, China
Hao Wang
Huai’an University, China
Jiawei Zhang
Chongqing University of Post and Telecommunications, China
Yi Zhang
Information Engineering University, China
Huai’an University, China
Jinwei Wang
Nankai University, China
Huai’an University, China
解决了什么问题
论文瞄准的是阻碍扩散式说话脸生成规模化的成本与可访问性门槛。
关键结果
作者报告相较现有 SOTA,口型同步 PCLD 至少提升 0.16,视觉保真 FID 至少改善 0.7。
摘要
扩散式说话脸生成通常需要任务微调和大规模音视频数据,成本高且难复用。论文提出直接利用 Stable Diffusion 与 IP-Adapter 的无需微调范式,并通过结构重组、运动趋势控制和噪声感知来缓解身份漂移、口型错误和时间抖动。
研究出发点
扩散式说话脸系统能力很强,但通常需要任务微调和大规模音视频数据。
方法概述
方法直接使用预训练 Stable Diffusion 与 IP-Adapter,并加入无需训练参数的模块:Structurist 分离口型与外观,Structure Controller 优化运动趋势,Noise Sensor 抑制闪烁抖动。
论文总结
这篇论文指向一种成本更低的说话脸技术栈:复用预训练 Stable Diffusion 与 IP-Adapter,而不是为任务重新微调大模型。对产品团队来说,重点不只是生成质量,还包括它显式处理身份漂移、口型同步误差、闪烁和时间不稳定性,这些正是 demo 进入生产后最容易变成用户问题的失败模式。