GazeCLIP: Blickgesteuertes CLIP mit adaptiv verstärktem feingranularem Sprach-Prompt für Deepfake-Attribution und -Erkennung
Autoren & Institutionen
Yaning Zhang
Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China
Linlin Shen
Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China
National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China
Shenzhen Institute of Artificial Intelligence and Robotics for Society, China
Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China
Zitong Yu
School of Computing and Information Technology, Great Bay University, China
Chunjie Ma
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Zan Gao
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China
Welches Problem es löst
GazeCLIP adressiert sowohl Attribution als auch Erkennung und fragt, ob blickbewusste Hinweise die Generalisierung auf ungesehene Fälschungsmethoden verbessern können.
Zentrales Ergebnis
Auf dem Benchmark der Autoren übertrifft die Methode den bisherigen Stand der Technik im Setting mit ungesehenen Generatoren um 6.56% durchschnittliche Genauigkeit bei der Attribution und 5.32% AUC bei der Erkennung.
Abstract
Aktuelle Arbeiten zur Deepfake-Attribution oder Deepfake-Erkennung zeigen gegenüber neuartigen generativen Methoden aufgrund der begrenzten Erschließung rein visueller Modalitäten tendenziell eine geringe Generalisierung. Sie bewerten die Attributions- oder Erkennungsleistung von Modellen auf ungesehenen fortgeschrittenen Generatoren nur grob und berücksichtigen die Synergie beider Aufgaben nicht. Zu diesem Zweck schlagen wir ein neuartiges blickgesteuertes CLIP mit adaptiv verstärkten feingranularen Sprach-Prompts für feingranulare Deepfake-Attribution und -Erkennung (DFAD) vor. Konkret führen wir einen neuen feingranularen Benchmark ein, um die DFAD-Leistung von Netzwerken auf neuartigen Generatoren wie Diffusions- und Flow-Modellen zu evaluieren. Zusätzlich führen wir ein blickbewusstes Modell auf Basis von CLIP ein, das die Generalisierung auf ungesehene Gesichtsmanipulationsangriffe verbessern soll. Aufbauend auf der neuen Beobachtung, dass zwischen unverfälschten und gefälschten Blickvektoren signifikante Verteilungsunterschiede bestehen und dass die Erhaltung des Zielblicks in von GAN- und Diffusionsmodellen erzeugten Gesichtsbildern stark variiert, entwerfen wir einen visuellen Wahrnehmungsencoder, der die inhärenten Blickunterschiede nutzt, um globale Forgery-Embeddings über Erscheinungs- und Blickdomänen hinweg zu gewinnen. Wir schlagen einen gaze-aware image encoder (GIE) vor, der über einen Gaze-Encoder extrahierte Forgery-Gaze-Prompts mit allgemeinen Embeddings gefälschter Bilder fusioniert, um allgemeine Attributionsmuster zu erfassen, sodass Merkmale in einen stabileren und gemeinschaftlichen DFAD-Feature-Raum transformiert werden können. Wir entwickeln einen language refinement encoder (LRE), der mithilfe eines adaptiv verstärkten Wortselektors dynamisch verbesserte Sprach-Embeddings für präzises Vision-Language-Matching erzeugt. Umfangreiche Experimente auf unserem Benchmark zeigen, dass unser Modell den Stand der Technik bei durchschnittlicher Leistung um 6.56% ACC bzw. 5.32% AUC unter Attributions- bzw. Erkennungseinstellungen übertrifft. Der Code wird auf GitHub verfügbar sein.
Ausgangspunkt der Forschung
Deepfake-Detektoren überfokussieren oft das visuelle Erscheinungsbild und versagen stark, sobald ein neuer Generator andere Artefakte erzeugt als im Trainingssatz. Die Autoren gehen von der Beobachtung aus, dass gefälschte Gesichter auch Unterschiede im Blickverhalten und in der Blickerhaltung zeigen, insbesondere zwischen GAN- und Diffusionspipelines, und dass dieses Signal bislang nicht vollständig genutzt wird. Motiviert ist die Arbeit von dem Ziel, sowohl Deepfake-Attribution als auch -Erkennung so zu verbessern, dass sie auf ungesehene Generatoren generalisieren, statt beim nächsten Modell-Release zu kollabieren.
Methode
GazeCLIP baut ein blickbewusstes CLIP-artiges Framework auf, in dem visuelle Fälschungshinweise und gaze-basierte Prompts in einen stabileren forensischen Embedding-Raum fusioniert werden. Die Methode führt einen gaze-aware Image Encoder und einen Language Refinement Encoder mit adaptiver Wortauswahl ein, sodass der Textzweig Authentizitätshinweise präziser beschreibt. Zusätzlich konstruiert die Arbeit einen feingranulareren Benchmark für Attribution und Erkennung unter neuartigen Diffusions- und Flow-basierten Generatoren, was die Glaubwürdigkeit der Evaluation stärkt.
Einordnung
Die Arbeit überzeugt, weil sie mit Blickkonsistenz einen neuen anatomischen Hinweis in die Toolbox der Deepfake-Erkennung einführt, statt endlos das gleiche texturzentrierte Paradigma zu recyceln. Dieser Perspektivwechsel erklärt auch, warum die Methode bei ungesehenen Generatoren besser wird und nicht nur auf bekannten Datensätzen punktet. Für Leser, die sich mit Abwehr von Gesichtsmanipulation befassen, ist GazeCLIP ein starkes Beispiel dafür, wie multimodales Reasoning praktisch nützlich werden kann.