研究雷达深伪检测arXiv2026年5月

每月 arXiv 雷达

2026 年 5 月深伪检测论文：轻量视频线索、基础模型边界与扩散人脸定位

2026 年 5 月的深伪检测更关注部署压力，而不只是单一基准胜利：更小的模型、更清晰的泛化边界，以及面向扩散时代人脸生成的定位能力。这些论文有助于团队判断是否扩大 detector、冻结基础模型 backbone，或投资多模态取证信号。

本月趋势判断

本月最强信号是克制：更好的深伪防御不一定只来自更大的 detector，也可能来自更有针对性的线索和诚实的泛化审计。

论文 012026-05-27cs.CV

面向鲁棒视频人脸伪造检测的轻量级互补线索融合

arXiv PDF

作者与机构

Sunghwan Baek

Carnegie Mellon University, USA

Tariq Anwaar

Carnegie Mellon University, USA

Karanveer Singh

Carnegie Mellon University, USA

Rita Singh

Carnegie Mellon University, USA

解决了什么问题

论文检验精心选择的手工取证线索是否能在不扩大模型的情况下提升鲁棒性。

关键结果

新增模块仅增加 292 个参数，将 FaceForensics++ 平均 AUC 从 74.8% 提升到 78.6%，DFDC-Preview 从 70.5% 提升到 74.9%，并在八个公开基准上优于 F3Net、SRM 和 SPSL。

摘要

论文表明，视频人脸伪造检测不一定需要更宽或双流骨干。作者在 Xception 基线上加入仅 292 个参数的轻量融合模块，将低频小波去噪特征与相位谱或局部二值模式线索结合，在多个公开基准上提升 AUC。

研究出发点

许多视频人脸伪造检测器通过加宽模型或增加分支提升能力，但这会提高部署成本。

方法概述

作者在 Xception 上加入极小融合模块，将小波去噪特征与相位谱线索或局部二值模式结合。

论文总结

这篇论文的核心启发是：Deepfake 检测并不总是需要更大的 backbone，关键在于取证线索是否选得准、融合得好。它用极小的融合模块结合低频小波去噪特征与相位或纹理线索，为需要更强跨基准鲁棒性、但不想增加数据、测试增强或重推理成本的团队提供了一个成本更克制的方向。

论文 022026-05-24cs.CV

视觉基础模型在人脸 Deepfake 检测中的跨域泛化限制

arXiv PDF

作者与机构

Ibrahim Delibasoglu

Department of Software Engineering, Faculty of Computer and Information Sciences, Sakarya University, Sakarya, Türkiye

解决了什么问题

论文评估冻结的视觉基础模型 backbone 是否能在无需完整重训的情况下跨 deepfake 域泛化。

关键结果

结果显示基础模型特征对整脸合成仍有较强判别力，但局部人脸编辑暴露了线性探针评估结构的根本限制。

摘要

论文系统评估视觉基础模型能否作为人脸 Deepfake 检测的泛化特征提取器。通过在 DF40 上比较监督式 RoPE-ViT、自监督 DINOv3 和多教师 C-RADIOv4-H 的冻结特征与线性探针，研究揭示了不同预训练范式面对整脸生成和局部编辑时的边界。

研究出发点

视觉基础模型很适合作为通用取证特征提取器，但它们面对未知人脸伪造时的边界并不清晰。

方法概述

研究在 DF40 基准上用线性探针比较监督式 RoPE-ViT、自监督 DINOv3 和多教师 NVIDIA C-RADIOv4-H。

论文总结

这篇论文提醒我们，不能默认冻结的视觉基础模型就能自动解决 Deepfake 泛化问题。跨域评估显示，整脸生成可能比局部编辑更容易被识别，因此采购和选型时应加入生成器迁移、操纵类型变化等压力测试，而不能只看平均基准分数。

论文 032026-05-11cs.CV

MFVLR：面向可泛化扩散人脸伪造检测与定位的多域细粒度视觉语言重建

arXiv PDF

作者与机构

Yaning Zhang

Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), Jinan, China

Tianyi Wang

School of Computing, National University of Singapore, Singapore

Zan Gao

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), Jinan, China

Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, Tianjin, China

Yibo Zhao

Key Laboratory of Computer Vision and Systems, Ministry of Education, Tianjin University of Technology, Tianjin, China

Chunjie Ma

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), Jinan, China

Meng Wang

School of Computer Science and Information Engineering, Hefei University of Technology, Hefei, China

解决了什么问题

论文解决的是扩散合成人脸伪造在跨生成器、跨伪造类型和跨数据集场景下的通用检测与定位。

关键结果

实验与可视化显示，该方法在跨生成器、跨伪造类型和跨数据集设置中优于已有 SOTA。

摘要

MFVLR 面向扩散合成人脸的通用伪造检测与定位，利用细粒度语言重建、多域视觉编码、视觉解码与视觉注入模块来捕捉跨图像域和残差域的伪造痕迹。实验显示它在跨生成器、跨伪造类型和跨数据集评估中优于已有方法。

研究出发点

扩散人脸生成把问题从识别旧式 GAN 伪影，推向识别和定位更细微、更多样的伪造痕迹。

方法概述

MFVLR 结合细粒度语言 transformer、覆盖图像域与残差域的多域视觉编码器、用于定位的视觉解码器，以及增强视觉语言交互的可插拔视觉注入模块。

论文总结

MFVLR 的意义在于把扩散人脸取证从图像级真假判断推进到定位和跨域解释。它结合细粒度语言重建、视觉残差域和用于伪造区域定位的解码器，适合那些不仅要知道图像是否为假，还要知道证据出现在什么位置的审核与取证流程。