← ブログ一覧へ戻る
リサーチレーダーディープフェイク検出arXiv2026年3月

月次 arXiv レーダー

2026年3月のディープフェイク検出論文: 視線、顔部位、構造化推論、VLMセマンティクス

2026年3月のディープフェイク検出研究は、単純なアーティファクト検出を超えつつある。最も強い論文群は、解剖学的手掛かり、部位レベルの推論、視覚言語セマンティクスを組み合わせ、新しい生成器にまたがる一般化を狙っている。そのためこのテーマは、deepfake detection、face forgery detection、AI media trust に関する学術的検索意図と商用的検索意図の両方をまたぐSEO上の価値も高い。

本月の重要シグナル

2026年3月でもっとも信頼できるトレンドは、フォレンジックの専門化である。汎用バックボーンがすべてを見つけてくれると期待するのではなく、有力な論文は視線、顔部位、段階的推論を明示的にモデル化し、より制御しやすい形で証拠を捉えている。

論文 012026-03-31cs.CV

GazeCLIP: ディープフェイク帰属と検出のための適応強化型細粒度言語プロンプトを備えた視線誘導CLIP

著者・所属

Yaning Zhang

Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China

Linlin Shen

Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China

National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China

Shenzhen Institute of Artificial Intelligence and Robotics for Society, China

Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China

Zitong Yu

School of Computing and Information Technology, Great Bay University, China

Chunjie Ma

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Zan Gao

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China

何を解決するか

GazeCLIP は、視線を考慮した手掛かりが未知の偽造手法への一般化を改善できるかを問い、帰属と検出の両方を対象にする。

主要結果

著者らのベンチマークでは、未知生成器設定で既存最良法を上回り、帰属で平均精度 6.56%、検出で AUC 5.32% 向上した。

要旨

現在のdeepfake attributionやdeepfake detectionの研究は、視覚モダリティのみに限定した探索のため、新規生成手法に対する一般化性能が低い傾向にある。また、未知の高度な生成器に対する帰属・検出性能を粗い形でしか評価せず、両タスクの相乗効果も考慮していない。これに対し本研究では、fine-grained deepfake attribution and detection(DFAD)のための、adaptive-enhanced fine-grained language promptsを備えた新規のgaze-guided CLIPを提案する。具体的には、diffusionやflow modelのような新規生成器に対するDFAD性能を評価するため、新規かつfine-grainedなベンチマークを構築する。さらに、未知の顔偽造攻撃に対する一般化を高めることを目的とした、CLIPベースのgaze-awareモデルを導入する。正常画像と偽造画像のgaze vector分布には有意な差があり、GANおよびdiffusionで生成された顔画像ではターゲットgazeの保持度が大きく異なるという新たな観察に基づき、外観ドメインとgazeドメインにまたがるグローバルな偽造埋め込みを掘り起こすためのvisual perception encoderを設計する。さらに、gaze encoderで抽出したforgery gaze promptsと通常の偽造画像埋め込みを融合し、一般的な帰属パターンを捉えるgaze-aware image encoder(GIE)を提案する。これにより、特徴はより安定した共通のDFAD特徴空間へ変換される。加えて、精密なvision-language matchingのため、adaptive-enhanced word selectorにより動的に強化された言語埋め込みを生成するlanguage refinement encoder(LRE)を構築する。提案ベンチマーク上での大規模実験により、提案モデルは帰属設定と検出設定において、それぞれ平均性能でstate of the artを6.56% ACCおよび5.32% AUC上回ることを示した。コードはGitHubで公開予定である。

研究の出発点

ディープフェイク検出器はしばしば画像の見た目に過度に依存し、訓練データとは異なるアーティファクトを新しい生成器が出すと大きく崩れる。著者らは、偽造顔には視線挙動や視線保持にも差が現れ、とくにGAN系と拡散系のパイプライン間でその差が見られるのに、この手掛かりが十分に活用されていないと捉える。動機は、次のモデル更新で破綻しない形で、未知生成器にも一般化する deepfake attribution と detection を同時に改善することにある。

手法

GazeCLIP は、視覚的な偽造手掛かりと視線ベースのプロンプトを、より安定したフォレンジック埋め込み空間へ統合する gaze-aware な CLIP 系フレームワークを構築する。手法には gaze-aware image encoder と、適応的な語選択を行う language refinement encoder が含まれ、真正性の手掛かりを記述するテキスト分岐をより精密にする。さらに論文では、新しい拡散型・flow-based 生成器下での attribution と detection に焦点を当てた、より細粒度のベンチマークも整備しており、評価の説得力を高めている。

論文要点

この論文が魅力的なのは、従来のテクスチャ偏重の発想を繰り返すのではなく、視線の一貫性という新しい解剖学的手掛かりをディープフェイク検出の道具箱に加えた点にある。この転換が、見慣れたデータセットだけでなく未知生成器で改善する理由の説明にもなっている。顔偽造防御を追う読者にとって、GazeCLIP はマルチモーダル推論が実用性を持ち始める具体例だ。

論文 022026-03-27cs.CV

Face2Parts: 汎化可能なディープフェイク検出のための粗視化から精細化までの顔領域間依存性の探索

著者・所属

Kutub Uddin

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Nusrat Tasnim

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Byung Tae Oh

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

何を解決するか

Face2Parts は、全体フレーム、顔クロップ、目・唇・鼻などの主要サブリージョンのあいだにある coarse-to-fine の依存関係を捉えるよう設計されている。

主要結果

論文は複数のベンチマークで高い平均 AUC を報告しており、FaceForensics++ では 98.42% を達成し、DFDC、DFD、CDF 系列でも競争力ある cross-dataset 性能を示す。

要旨

マルチメディアデータ、特に画像や動画は、監視、視覚的インタラクション、バイオメトリクス、証拠収集、広告など、さまざまな応用に不可欠である。しかし、素人あるいは熟練の偽造者がそれらを模倣してdeepfakeを作成し、しばしば中傷的な目的に利用しうる。この課題に対処するため、コンテンツの真正性を保証する複数のフォレンジック手法が開発されてきた。これらの手法の有効性は着目点に依存し、操作の多様性に起因する困難が存在する。本論文では既存のフォレンジック手法を分析し、それぞれがフレーム、顔、唇、目、鼻など特定の顔領域に注目することで、deepfake痕跡の検出において固有の強みを持つことを観察した。これらの知見を踏まえ、coarse-to-fine情報を活用してdeepfake検出を改善する、階層的特徴表現(HFR)に基づく新しいハイブリッド手法Face2Partsを提案する。提案法では、フレーム、顔、および主要な顔領域、すなわち唇、目、鼻から特徴を個別に抽出し、coarse-to-fineな関係を探索する。このアプローチにより、channel-attention機構とdeep triplet learningを用いて顔領域間の相互依存性を捉えることができる。提案手法を、ベンチマークdeepfakeデータセットに対して、intra-dataset、inter-dataset、およびinter-manipulation設定で評価した。その結果、提案法はFF++で平均AUC 98.42%、CDF1で79.80%、CDF2で85.34%、DFDで89.41%、DFDCで84.07%、DTIMで95.62%、PDDで80.76%、WLDRで100%をそれぞれ達成した。これらの結果は、提案アプローチが効果的に一般化し、既存手法を上回る有望な性能を示すことを裏付けている。

研究の出発点

ディープフェイク検出法はしばしば専門化によって成功しており、あるモデルは顔境界に強く、別のモデルは眼領域に強く、さらに別のモデルは口元のアーティファクトに強い。著者らは、こうした強みは競合すべきではなく統合されるべきだと考える。なぜなら偽造の痕跡は異なるスケールと異なる画像領域に分散して現れるからだ。目的は、単一の巨大な特徴マップが全部を見つけてくれることに期待するのではなく、この coarse-to-fine な多様性を明示的に捉える検出器を設計することにある。

手法

Face2Parts は、全体フレーム、顔クロップ、さらに唇・目・鼻といった重要な顔領域から特徴を抽出し、それらの相互作用を channel attention と deep triplet learning でモデル化する。この階層的特徴表現は、グローバル文脈と局所的な微細アーティファクトの双方を捉えつつ、各領域がどう補完し合うかを学習するためのものだ。評価は同一データセット内、データセット間、操作タイプ間にまたがって行われ、操作様式が変わると破綻しやすい検出器に対して重要な検証になっている。

論文要点

Face2Parts の有用性は、非常に直感的なフォレンジック手順を形式化している点にある。まず画像全体を見て、次に顔を拡大し、最後にもっとも疑わしい部位へズームする。強いベンチマーク結果は、この多層的な検査プロセスが解釈しやすいだけでなく有効でもあることを示している。実務家にとっては、ディープフェイク検出はモデル規模を拡大するだけでなく、証拠の構造化を改善することでも前進できるという示唆だ。

論文 032026-03-23cs.CV

VIGIL: 一般化可能なディープフェイク検出のための部位接地型構造化推論

著者・所属

Xinghan Li

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Junhao Xu

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Jingjing Chen

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

何を解決するか

VIGIL は計画と 검사를分離し、部位レベルの証拠を注入する前に、どの部分を調べる価値があるかを検出器自身に決めさせる。

主要結果

OmniFake と cross-dataset 評価を通じて、著者らは専門家型検出器および従来の MLLM ベース手法の両方より強い一般化性能を報告している。

要旨

Multimodal large language models(MLLMs)は、テキスト説明を生成することにより、解釈可能なdeepfake検出への有望な道筋を提供する。しかし、現在のMLLMベース手法では、証拠生成と改ざん位置特定が単一ステップに統合されている。この結合は、忠実な観察と幻覚的説明の境界を曖昧にし、信頼できない結論につながる。これを踏まえ、本論文では、専門家のフォレンジック実務に着想を得たpart-centric structured forensic frameworkであるVIGILを提案する。VIGILはplan-then-examineパイプラインを採用し、まずモデルが全体的視覚手掛かりに基づいてどの顔部位を検査すべきか計画し、その後、それぞれの部位を独立に取得されたフォレンジック証拠で検査する。stage-gated injection mechanismにより、部位レベルのフォレンジック証拠は検査段階でのみ与えられ、部位選択は外部信号に偏らされることなくモデル自身の知覚によって駆動される。さらに、解剖学的妥当性と証拠-結論の整合性を強制するため、強化学習段階でpart-aware rewardを用いる進行的3段階学習パラダイムを提案する。厳密な一般化評価を可能にするため、3つの基盤生成器のみによって学習したモデルを、最終的にはin-the-wildのソーシャルメディアデータまで段階的に試験する、階層的な5-LevelベンチマークOmniFakeを構築した。OmniFakeおよびクロスデータセット評価での広範な実験により、VIGILはすべての一般化レベルにおいて、専門家検出器および同時期のMLLMベース手法の双方を一貫して上回ることが示された。

研究の出発点

MLLM ベースのディープフェイク検出器は説明可能性を約束するが、多くの手法は「何を見るかを決める」ことと「その証拠が何を意味するかを主張する」ことを混同している。この融合は、モデルが観察と結論を同時に作り出してしまうため、幻覚を見抜きにくくする。論文の動機は、これらの段階を分離し、ディープフェイク推論を流暢な即興ではなく、より法科学的な分析に近づけることにある。

手法

VIGIL は plan-then-examine パイプラインを採用し、まず調べる価値のある顔部位を選び、その後に領域固有のフォレンジック証拠を推論過程へ投入する。さらに、stage-gated な証拠投入と、part-aware 強化報酬を伴う段階的学習により、説明がもっともらしい解剖学と一貫した証拠連鎖に結び付くようにする。一般化をより厳密に検証するため、論文では基礎的な生成器から in-the-wild のソーシャルメディアデータまで拡張する五段階ベンチマーク OmniFake も導入している。

論文要点

VIGIL の最大の貢献は構造にある。説明可能なディープフェイク検出を、単なる prompting の問題ではなく、パイプライン設計の問題として扱っている点だ。検出器にまず部位を選ばせ、次に説明させることで、この枠組みは根拠ある証拠と幻覚的な物語を見分けやすくする。人がレビュー可能な説明を持つ検出器を求めるチームにとって、特に重要な論文である。

論文 042026-03-25cs.CV

ディープフェイク動画検出のための視覚言語セマンティクスの解放

著者・所属

Jiawen Zhu

Singapore Management University, Singapore

Yunqi Miao

The University of Warwick, UK

Xueyi Zhang

Nanyang Technological University, Singapore

Jiankang Deng

Imperial College London, UK

Guansong Pang

Singapore Management University, Singapore

何を解決するか

VLAForge は、クロスモーダルな意味情報を、古典的な face swap と新しい full-face synthetic video の双方に対してより強い判別信号へどう変換するかを問う。

主要結果

論文は、face-swapping と full-face generation の各ベンチマークにおいて、フレームレベル・動画レベルの両方で既存の deepfake video detection 法を大きく上回ると報告している。

要旨

近年のDeepfake Video Detection(DFD)研究では、CLIPのような事前学習済みVision-Language Models(VLMs)が、異なるアイデンティティ間のアーティファクト検出において高い一般化能力を示すことが明らかになっている。しかし既存手法は視覚特徴の活用のみに焦点を当てており、その最大の特長である、潜在空間に埋め込まれた豊かなvision-language semanticsを見落としている。本論文では、このようなクロスモーダル意味情報の可能性を解き放ち、deepfake検出におけるモデルの識別性を高める新しいDFDフレームワークVLAForgeを提案する。本研究は、(i) ForgePerceiverによってVLMの視覚知覚を強化する。ForgePerceiverは独立した学習器として機能し、事前学習済みVision-Language Alignment(VLA)知識を保持しつつ、粒度の細かいものから全体的なものまで多様で微細な偽造手掛かりを捉える。(ii) ForgePerceiverが学習した偽造手掛かりとクロスモーダル意味情報を結合することで導出される補完的な識別手掛かり、すなわちIdentity-Aware VLA scoreを提供する。特に、このVLA scoreは、各アイデンティティに特化した真正性手掛かりを捉えるため、アイデンティティ事前情報に基づくテキストプロンプティングによって強化され、より識別的なクロスモーダル意味表現を可能にする。古典的なface-swapping偽造および近年のfull-face generation偽造を含む動画DFDベンチマークでの包括的実験により、VLAForgeはフレームレベルおよび動画レベルの両方でstate-of-the-art手法を大きく上回ることが示された。コードは https://github.com/mala-lab/VLAForge で公開されている。

研究の出発点

CLIP のような Vision-Language Models は高い転移能力を示しているが、多くのディープフェイク動画検出法はそれらを単に強力な視覚エンコーダとしてしか使っていない。著者らは、それではモデルの最も特徴的な価値であるクロスモーダルな意味空間そのものを無駄にしていると主張する。動機は、その潜在的な意味整合を、古典的な face swap と新しい full-face synthetic video の両方にまたがって一般化できる判別手掛かりへ変えることにある。

手法

提案された VLAForge フレームワークは、事前学習済み VLM が持つ元の vision-language alignment を保ちながら、微妙な偽造手掛かりを掘り起こす ForgePerceiver を追加する。さらに、identity-aware な vision-language alignment score を、identity-informed prompts と組み合わせて導入し、クロスモーダル空間を真正性の不一致に対してより敏感にする。これにより検出器は、アーティファクト知覚と意味比較をどちらか一方に頼るのではなく組み合わせて使える。

論文要点

この論文の中心的メッセージは、ディープフェイク動画検出は vision-language セマンティクスを装飾ではなく本当に活用することで、実質的な頑健性を得られるということだ。VLAForge は、意味整合、アイデンティティ事前知識、偽造特化の知覚が対立するのではなく協調できることを示している。ディープフェイク防御の将来を追う読者にとって、より一般化しやすく概念的にも筋の通った検出器への意味ある一歩である。