研究雷达深度伪造检测arXiv2026年3月

每月 arXiv 雷达

2026 年 3 月 deepfake 检测论文速递：视线、局部部件、结构化推理与视觉语言语义

2026 年 3 月的 deepfake 检测研究已经不再满足于简单的伪迹识别。更强的方法开始结合解剖结构线索、局部部件推理以及视觉语言语义，以提升对新型生成器的泛化能力。对于 SEO 来说，这也是极具价值的主题，因为它同时覆盖 deepfake detection、face forgery detection 和 AI media trust 等搜索意图。

本月趋势判断

2026 年 3 月最清晰的趋势是“取证专业化”：研究者不再指望一个通用 backbone 自动发现所有伪迹，而是显式建模视线、面部部件和分阶段推理，以更可控地提取证据。

论文 012026-03-31cs.CV

GazeCLIP：用于深度伪造归因与检测的视线引导 CLIP 与自适应增强细粒度语言提示

arXiv PDF

作者与机构

Yaning Zhang

Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China

Linlin Shen

Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China

National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China

Shenzhen Institute of Artificial Intelligence and Robotics for Society, China

Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China

Zitong Yu

School of Computing and Information Technology, Great Bay University, China

Chunjie Ma

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Zan Gao

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China

解决了什么问题

GazeCLIP 同时面向来源归因和真假检测，核心问题是：视线感知线索能否提升模型对未知伪造方法的泛化能力。

关键结果

在作者构建的基准上，该方法在未知生成器场景下相对已有最优方法提升了 6.56% 的平均归因准确率和 5.32% 的检测 AUC。

摘要

现有 deepfake 归因与检测方法通常主要依赖视觉模态，因此面对新的生成器时泛化能力较弱；同时，很多工作对“检测”和“归因”两项任务的协同关系考虑不足，对扩散模型和流模型等新型生成器的评估也较为粗略。为此，本文提出 GazeCLIP，一种结合 gaze-guided CLIP 与自适应增强细粒度语言提示的深度伪造归因与检测（DFAD）框架。作者首先构建了一个更细粒度的新基准，用于评估模型在扩散和流模型等未知生成器上的 DFAD 表现。随后，基于一个关键观察：真实与伪造样本在 gaze vector 分布上存在显著差异，而且 GAN 与扩散模型在保留目标 gaze 方面表现不同，论文设计了一个结合目光信息的 CLIP 模型。具体而言，视觉感知编码器利用 gaze 差异，从外观与目光两个域中挖掘通用伪造表示；gaze-aware image encoder（GIE）则将 gaze encoder 提取的伪造 gaze prompt 与通用伪造图像特征融合，学习更稳定、更共享的 DFAD 特征空间。与此同时，语言 refinement encoder（LRE）通过自适应增强的词选择器生成动态优化的语言表示，以实现更精确的视觉-语言匹配。在所构建基准上的大量实验表明，该模型在归因和检测设置下，平均性能分别较现有 SOTA 提升 6.56% ACC 和 5.32% AUC。代码将在 GitHub 开源。

研究出发点

很多 deepfake 检测器过度依赖图像表面纹理，一旦新生成器产生的伪迹与训练集不同，性能就会迅速下滑。作者注意到，伪造人脸在视线行为和 gaze 保持上也会暴露出规律性差异，尤其是在 GAN 与 diffusion 生成路径之间，而这一线索还没有被充分利用。论文的研究动机，就是希望同时提升 deepfake attribution 与 detection，并让系统在遇到未知生成器时依然保持泛化能力。

方法概述

GazeCLIP 基于 CLIP 构建了一个 gaze-aware 取证框架，把视觉伪造特征与视线提示共同映射到更稳定的鉴伪特征空间中。方法包含一个 gaze-aware 图像编码器，以及带自适应词选择机制的语言细化编码器，使文本分支在描述真实性线索时更加精确。与此同时，作者还专门构建了一个更细粒度的 benchmark，重点评估模型在未知 diffusion 和 flow 生成器下的 attribution 与 detection 表现，从而增强了整篇论文的可信度。

论文总结

这篇论文之所以有吸引力，是因为它没有继续停留在“只看纹理”的老思路上，而是把 gaze consistency 这样的解剖级线索正式引入 deepfake 检测工具箱。正因为多了一条新的鉴伪维度，模型在未知生成器上的提升才更有解释力，而不是仅仅依靠熟悉数据集刷分。对于关注 face forgery defense 的读者而言，GazeCLIP 是多模态推理走向实用化的一个很典型例子。

论文 022026-03-27cs.CV

Face2Parts：面向可泛化深度伪造检测的粗到细人脸区域间依赖建模

arXiv PDF

作者与机构

Kutub Uddin

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Nusrat Tasnim

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Byung Tae Oh

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

解决了什么问题

Face2Parts 试图建模从整帧、整脸到眼睛、嘴唇、鼻子等关键子区域之间的粗到细依赖关系。

关键结果

论文在多个基准数据集上给出了很强的平均 AUC，包括 FaceForensics++ 上的 98.42%，以及在 DFDC、DFD 和 CDF 等跨数据集测试中的竞争性表现。

摘要

多媒体数据，尤其是图像和视频，已广泛应用于监控、视觉交互、生物识别、证据留存和广告等场景，但无论是业余还是专业攻击者都可以利用这些媒介制造 deepfake，从而带来诽谤和欺诈风险。为应对这一挑战，研究者提出了多种数字取证方法来验证内容真实性。作者指出，这些方法的有效性往往取决于它们聚焦的区域，而 deepfake 操作手法的多样性也进一步放大了检测难度。通过分析现有方法，论文发现，不同模型在特定面部区域上各有优势，例如边框、整脸、嘴唇、眼睛或鼻子等。基于这一观察，本文提出一种新的混合式方法 Face2Parts，基于层次化特征表示（HFR）利用从粗到细的信息来提升 deepfake 检测。具体做法是分别从整帧、整脸以及关键面部区域（嘴唇、眼睛、鼻子）中提取特征，并通过这种多层级设计探索区域之间的关联。模型进一步借助通道注意力机制和深度 triplet learning 捕捉跨区域依赖关系。作者在多项标准数据集上进行了同域、跨数据集和跨操纵方式评测，方法分别在 FF++、CDF1、CDF2、DFD、DFDC、DTIM、PDD 和 WLDR 上取得了 98.42%、79.80%、85.34%、89.41%、84.07%、95.62%、80.76% 和 100% 的平均 AUC。结果表明，该方法具备良好的泛化能力，并优于现有检测方法。

研究出发点

很多 deepfake 检测方法其实都是“各有所长”：有的擅长看人脸边界，有的对眼部异常更敏感，还有的更容易抓到嘴部伪迹。作者的出发点是，这些优势不应该彼此割裂，而应该被系统化整合，因为伪造痕迹天然就分布在不同尺度和不同区域。换句话说，他们希望设计一个能显式捕捉 coarse-to-fine 多层证据的系统，而不是寄希望于一个单一特征图自动发现全部线索。

方法概述

Face2Parts 会分别从整帧、整脸，以及嘴唇、眼睛、鼻子等关键局部区域提取特征，再通过通道注意力和 deep triplet learning 去建模这些区域之间的交互关系。这种 hierarchical feature representation 让系统既能看到全局上下文，也能抓住微小局部伪迹，并进一步学习这些区域如何相互补充。论文的实验同时覆盖同数据集、跨数据集和跨操控类型场景，这一点很关键，因为很多检测器真正失效的地方正是在 manipulation style 切换时。

论文总结

Face2Parts 的价值在于，它把一种非常直观的取证流程正式模型化：先看整张图，再看整张脸，最后把注意力集中到最可疑的局部部位。论文的 benchmark 结果说明，这种分层检查过程不仅更容易理解，而且确实有效。对于实际系统开发者来说，它提醒我们：deepfake 检测的提升空间，很多时候来自更合理的证据组织方式，而不只是继续堆大模型。

论文 032026-03-23cs.CV

VIGIL：面向可泛化深度伪造检测的部位锚定结构化推理

arXiv PDF

作者与机构

Xinghan Li

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Junhao Xu

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Jingjing Chen

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

解决了什么问题

VIGIL 将“规划检查哪些部位”和“检查这些部位”拆成两个阶段，使模型先决定该看哪里，再注入局部证据。

关键结果

在 OmniFake 和跨数据集测试中，作者报告称其泛化能力优于传统强基线和先前的多模态大模型方法。

摘要

多模态大语言模型（MLLM）为可解释 deepfake 检测提供了新的可能，因为它们能够输出文本化解释。然而，现有基于 MLLM 的方法通常把证据生成和操纵区域定位放在同一步骤中完成，这种混合过程会模糊“真实观察”和“幻觉式解释”的边界，从而导致结论不可靠。基于这一问题，本文提出 VIGIL，一个受专家取证流程启发、以面部部位为中心的结构化取证框架。该方法采用“先规划、再检查”的流程：模型先根据全局视觉线索规划哪些面部部位值得重点检查，再对每个部位结合独立来源的取证证据进行分析。作者设计了阶段门控的证据注入机制，使部位级取证信号只在检查阶段进入模型，从而保证部位选择仍由模型自身感知驱动，而不会被外部证据提前干扰。论文还提出渐进式三阶段训练范式，其中强化学习阶段通过部位感知奖励来约束解剖合理性和证据-结论一致性。为了严谨评估泛化能力，作者构建了 OmniFake，一个分为 5 个层级的层次化基准：模型仅在 3 类基础生成器上训练，却需要逐级泛化到更复杂、甚至来源于社交媒体的野外数据。实验结果显示，VIGIL 在 OmniFake 以及跨数据集评测上，都稳定优于专家级检测器和同期基于 MLLM 的方法。

研究出发点

多模态大模型式 deepfake 检测器之所以令人期待，是因为它们看起来更“可解释”，但很多方法把两个完全不同的步骤混在了一起：既负责决定看哪里，又负责定义看到的证据意味着什么。这样一来，模型会同时“发明观察”和“发明结论”，幻觉就更难被识别。本文正是从这个问题出发，希望把这些阶段拆开，让 deepfake 推理更像法证分析，而不是流畅的即兴发挥。

方法概述

VIGIL 采用了一个先规划、后检查的推理流程：系统先确定哪些面部部位值得重点分析，然后才把对应区域的取证证据注入后续推理。模型还使用阶段性证据注入机制，以及带有部件感知奖励的渐进式训练方式，尽量让解释保持在合理的解剖结构和连贯证据链上。为了更严格地测试泛化能力，作者还构建了 OmniFake 五级基准，从基础生成器一路扩展到社交媒体真实环境数据。

论文总结

VIGIL 最重要的贡献在于结构设计层面：它把“可解释 deepfake 检测”看作一个流程设计问题，而不仅仅是 prompt engineering 问题。通过要求模型先选部位、再给解释，这个框架更容易把有依据的证据和无依据的叙述区分开来。对于希望让解释真正接受人工审核、而不是只用于 demo 展示的团队来说，这篇论文特别值得关注。

论文 042026-03-25cs.CV

VLAForge：释放视觉-语言语义用于深度伪造视频检测

arXiv PDF

作者与机构

Jiawen Zhu

Singapore Management University, Singapore

Yunqi Miao

The University of Warwick, UK

Xueyi Zhang

Nanyang Technological University, Singapore

Jiankang Deng

Imperial College London, UK

Guansong Pang

Singapore Management University, Singapore

解决了什么问题

VLAForge 关注的问题是：如何把跨模态语义转化为更强的判别信号，以同时覆盖经典换脸和新型整脸生成视频。

关键结果

论文报告称，在换脸和整脸生成基准上，无论帧级还是视频级评测，方法都显著优于此前的视频 deepfake 检测方案。

摘要

近期 deepfake 视频检测（DFD）研究表明，CLIP 等预训练视觉-语言模型（VLM）在跨身份伪造痕迹检测中具备较强的泛化能力。然而，现有方法大多只利用视觉特征，忽略了这类模型最有代表性的优势之一——潜空间中蕴含的丰富视觉-语言语义。本文提出 VLAForge，一种新的 DFD 框架，旨在释放跨模态语义对 deepfake 检测判别能力的提升潜力。该方法的第一项核心设计是 ForgePerceiver，它作为独立学习器增强 VLM 的视觉感知能力，既能从细粒度和整体层面捕捉多样而微弱的伪造线索，又能保留预训练的视觉-语言对齐知识。第二项设计是身份感知的 VLA 分数：作者将跨模态语义与 ForgePerceiver 学到的伪造特征耦合起来，并进一步结合身份先验引导的文本提示，以捕捉更贴合特定身份的真实性线索，从而得到更具判别力的跨模态表示。大量视频 DFD 基准实验覆盖了传统的人脸替换伪造与新型整脸生成伪造，结果表明 VLAForge 在帧级和视频级检测上都显著优于当前最先进方法。代码已开源：https://github.com/mala-lab/VLAForge。

研究出发点

像 CLIP 这样的视觉语言模型已经展现出很强的迁移能力，但很多 deepfake 视频检测方法仍然只是把它们当作更强的视觉 backbone 使用。作者认为，这实际上浪费了这类模型最独特的价值——跨模态语义空间本身。论文的出发点，就是把这种语义对齐能力真正转化为 deepfake 检测的判别信号，尤其是在经典换脸和新型整脸生成视频之间实现更好的泛化。

方法概述

论文提出的 VLAForge 框架通过 ForgePerceiver 去挖掘细粒度伪造线索，同时尽量保留预训练视觉语言模型原本学到的跨模态对齐能力。在此基础上，系统又引入了带有身份先验提示的 identity-aware vision-language alignment score，使整个跨模态空间对真实性错配更敏感。这样一来，检测器就不再只依赖某一类伪迹，而是把视觉伪造感知与语义一致性比较结合起来。

论文总结

这篇论文最核心的观点是：如果真正用好视觉语言语义，而不是把它当装饰，deepfake 视频检测就能获得更有意义的鲁棒性。VLAForge 展示了语义对齐、身份先验和伪造感知完全可以协同工作，而不是彼此冲突。对于关注 deepfake 防御未来方向的读者来说，这是一篇很有代表性的工作，因为它推动检测器向更强泛化和更清晰原理同时演进。