作者与机构
Yaning Zhang
Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China
Linlin Shen
Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China
National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China
Shenzhen Institute of Artificial Intelligence and Robotics for Society, China
Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China
Zitong Yu
School of Computing and Information Technology, Great Bay University, China
Chunjie Ma
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Zan Gao
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China
解决了什么问题
GazeCLIP 同时面向来源归因和真假检测,核心问题是:视线感知线索能否提升模型对未知伪造方法的泛化能力。
关键结果
在作者构建的基准上,该方法在未知生成器场景下相对已有最优方法提升了 6.56% 的平均归因准确率和 5.32% 的检测 AUC。
摘要
现有 deepfake 归因与检测方法通常主要依赖视觉模态,因此面对新的生成器时泛化能力较弱;同时,很多工作对“检测”和“归因”两项任务的协同关系考虑不足,对扩散模型和流模型等新型生成器的评估也较为粗略。为此,本文提出 GazeCLIP,一种结合 gaze-guided CLIP 与自适应增强细粒度语言提示的深度伪造归因与检测(DFAD)框架。作者首先构建了一个更细粒度的新基准,用于评估模型在扩散和流模型等未知生成器上的 DFAD 表现。随后,基于一个关键观察:真实与伪造样本在 gaze vector 分布上存在显著差异,而且 GAN 与扩散模型在保留目标 gaze 方面表现不同,论文设计了一个结合目光信息的 CLIP 模型。具体而言,视觉感知编码器利用 gaze 差异,从外观与目光两个域中挖掘通用伪造表示;gaze-aware image encoder(GIE)则将 gaze encoder 提取的伪造 gaze prompt 与通用伪造图像特征融合,学习更稳定、更共享的 DFAD 特征空间。与此同时,语言 refinement encoder(LRE)通过自适应增强的词选择器生成动态优化的语言表示,以实现更精确的视觉-语言匹配。在所构建基准上的大量实验表明,该模型在归因和检测设置下,平均性能分别较现有 SOTA 提升 6.56% ACC 和 5.32% AUC。代码将在 GitHub 开源。
研究出发点
很多 deepfake 检测器过度依赖图像表面纹理,一旦新生成器产生的伪迹与训练集不同,性能就会迅速下滑。作者注意到,伪造人脸在视线行为和 gaze 保持上也会暴露出规律性差异,尤其是在 GAN 与 diffusion 生成路径之间,而这一线索还没有被充分利用。论文的研究动机,就是希望同时提升 deepfake attribution 与 detection,并让系统在遇到未知生成器时依然保持泛化能力。
方法概述
GazeCLIP 基于 CLIP 构建了一个 gaze-aware 取证框架,把视觉伪造特征与视线提示共同映射到更稳定的鉴伪特征空间中。方法包含一个 gaze-aware 图像编码器,以及带自适应词选择机制的语言细化编码器,使文本分支在描述真实性线索时更加精确。与此同时,作者还专门构建了一个更细粒度的 benchmark,重点评估模型在未知 diffusion 和 flow 生成器下的 attribution 与 detection 表现,从而增强了整篇论文的可信度。
论文总结
这篇论文之所以有吸引力,是因为它没有继续停留在“只看纹理”的老思路上,而是把 gaze consistency 这样的解剖级线索正式引入 deepfake 检测工具箱。正因为多了一条新的鉴伪维度,模型在未知生成器上的提升才更有解释力,而不是仅仅依靠熟悉数据集刷分。对于关注 face forgery defense 的读者而言,GazeCLIP 是多模态推理走向实用化的一个很典型例子。