著者・所属
Yaning Zhang
Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China
Linlin Shen
Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China
National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China
Shenzhen Institute of Artificial Intelligence and Robotics for Society, China
Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China
Zitong Yu
School of Computing and Information Technology, Great Bay University, China
Chunjie Ma
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Zan Gao
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China
何を解決するか
GazeCLIP は、視線を考慮した手掛かりが未知の偽造手法への一般化を改善できるかを問い、帰属と検出の両方を対象にする。
主要結果
著者らのベンチマークでは、未知生成器設定で既存最良法を上回り、帰属で平均精度 6.56%、検出で AUC 5.32% 向上した。
要旨
現在のdeepfake attributionやdeepfake detectionの研究は、視覚モダリティのみに限定した探索のため、新規生成手法に対する一般化性能が低い傾向にある。また、未知の高度な生成器に対する帰属・検出性能を粗い形でしか評価せず、両タスクの相乗効果も考慮していない。これに対し本研究では、fine-grained deepfake attribution and detection(DFAD)のための、adaptive-enhanced fine-grained language promptsを備えた新規のgaze-guided CLIPを提案する。具体的には、diffusionやflow modelのような新規生成器に対するDFAD性能を評価するため、新規かつfine-grainedなベンチマークを構築する。さらに、未知の顔偽造攻撃に対する一般化を高めることを目的とした、CLIPベースのgaze-awareモデルを導入する。正常画像と偽造画像のgaze vector分布には有意な差があり、GANおよびdiffusionで生成された顔画像ではターゲットgazeの保持度が大きく異なるという新たな観察に基づき、外観ドメインとgazeドメインにまたがるグローバルな偽造埋め込みを掘り起こすためのvisual perception encoderを設計する。さらに、gaze encoderで抽出したforgery gaze promptsと通常の偽造画像埋め込みを融合し、一般的な帰属パターンを捉えるgaze-aware image encoder(GIE)を提案する。これにより、特徴はより安定した共通のDFAD特徴空間へ変換される。加えて、精密なvision-language matchingのため、adaptive-enhanced word selectorにより動的に強化された言語埋め込みを生成するlanguage refinement encoder(LRE)を構築する。提案ベンチマーク上での大規模実験により、提案モデルは帰属設定と検出設定において、それぞれ平均性能でstate of the artを6.56% ACCおよび5.32% AUC上回ることを示した。コードはGitHubで公開予定である。
研究の出発点
ディープフェイク検出器はしばしば画像の見た目に過度に依存し、訓練データとは異なるアーティファクトを新しい生成器が出すと大きく崩れる。著者らは、偽造顔には視線挙動や視線保持にも差が現れ、とくにGAN系と拡散系のパイプライン間でその差が見られるのに、この手掛かりが十分に活用されていないと捉える。動機は、次のモデル更新で破綻しない形で、未知生成器にも一般化する deepfake attribution と detection を同時に改善することにある。
手法
GazeCLIP は、視覚的な偽造手掛かりと視線ベースのプロンプトを、より安定したフォレンジック埋め込み空間へ統合する gaze-aware な CLIP 系フレームワークを構築する。手法には gaze-aware image encoder と、適応的な語選択を行う language refinement encoder が含まれ、真正性の手掛かりを記述するテキスト分岐をより精密にする。さらに論文では、新しい拡散型・flow-based 生成器下での attribution と detection に焦点を当てた、より細粒度のベンチマークも整備しており、評価の説得力を高めている。
論文要点
この論文が魅力的なのは、従来のテクスチャ偏重の発想を繰り返すのではなく、視線の一貫性という新しい解剖学的手掛かりをディープフェイク検出の道具箱に加えた点にある。この転換が、見慣れたデータセットだけでなく未知生成器で改善する理由の説明にもなっている。顔偽造防御を追う読者にとって、GazeCLIP はマルチモーダル推論が実用性を持ち始める具体例だ。