作者与机构
Soumyya Kanti Datta
University at Buffalo, State University of New York
Shan Jia
University at Buffalo, State University of New York
Siwei Lyu
University at Buffalo, State University of New York
解决了什么问题
论文解决细粒度定位需求:安全审核者不仅要知道整个视频是否可疑,还要知道哪些帧或片段是伪造的。
关键结果
作者报告在 LAV-DF、AVDF1M、FakeAVCeleb 和 KODF 上优于现有方法,并能跨压缩等级和数据集泛化。
摘要
LoCC 通过检查每个嘴部帧是否与由时间邻居生成的反事实重建一致,来检测唇同步深伪。扩散重建模型、教师网络、学生网络与 Transformer 聚合共同支持片段级、帧级和视频级判断。
研究出发点
唇同步篡改难点在于只有嘴部区域变化,且被编辑片段可能很短;整体视频或音视频同步检测器容易漏掉局部不一致。
方法概述
LoCC 用真实嘴部帧训练扩散模型,从相邻帧预测中间帧。教师网络从重建误差与时间关系学习片段级不一致;学生网络蒸馏为逐帧预测,再由 Transformer 聚合长程上下文。
论文总结
LoCC 对取证流程有价值,因为它给出局部证据,而不是单个不透明分数。反事实框架特别适合短视频或局部编辑视频,因为篡改信号可能只存在于少数嘴部帧。