GazeCLIP : CLIP guidé par le regard avec prompt linguistique fin à renforcement adaptatif pour l’attribution et la détection de deepfakes
Auteurs & institutions
Yaning Zhang
Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China
Linlin Shen
Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China
National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China
Shenzhen Institute of Artificial Intelligence and Robotics for Society, China
Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China
Zitong Yu
School of Computing and Information Technology, Great Bay University, China
Chunjie Ma
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Zan Gao
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China
Problème traité
GazeCLIP vise à la fois l’attribution et la détection, en évaluant si des indices tenant compte du regard peuvent améliorer la généralisation à des méthodes de falsification inédites.
Résultat clé
Sur le benchmark des auteurs, la méthode dépasse l’état de l’art antérieur en scénario de générateurs non vus, avec +6.56% de précision moyenne pour l’attribution et +5.32% d’AUC pour la détection.
Résumé
Les travaux actuels sur l'attribution ou la détection des deepfakes présentent généralement une faible capacité de généralisation face à de nouvelles méthodes génératives, en raison d'une exploration limitée aux seules modalités visuelles. Ils ont tendance à évaluer de manière grossière les performances d'attribution ou de détection des modèles sur des générateurs avancés non vus, sans prendre en compte la synergie entre ces deux tâches. Dans ce but, nous proposons un nouveau CLIP guidé par le regard avec des prompts linguistiques fins et adaptativement enrichis pour l'attribution et la détection fines des deepfakes (DFAD). Plus précisément, nous introduisons un nouveau benchmark fin pour évaluer les performances DFAD des réseaux sur de nouveaux générateurs tels que les modèles de diffusion et de flux. En outre, nous présentons un modèle tenant compte du regard, basé sur CLIP, conçu pour améliorer la généralisation aux attaques inédites de falsification faciale. À partir de l'observation nouvelle selon laquelle il existe d'importantes différences de distribution entre les vecteurs de regard authentiques et falsifiés, et que la préservation du regard cible dans les images faciales générées par GAN et diffusion varie fortement, nous concevons un encodeur de perception visuelle qui exploite ces différences intrinsèques de regard pour extraire des embeddings globaux de falsification dans les domaines de l'apparence et du regard. Nous proposons un gaze-aware image encoder (GIE) qui fusionne des prompts de regard falsifié extraits via un encodeur de regard avec des embeddings d'images falsifiées classiques afin de capturer des motifs généraux d'attribution, permettant de transformer les caractéristiques dans un espace de caractéristiques DFAD plus stable et plus partagé. Nous construisons un language refinement encoder (LRE) pour générer des embeddings linguistiques dynamiquement enrichis via un sélecteur de mots à enrichissement adaptatif pour un appariement vision-langage précis. Des expériences approfondies sur notre benchmark montrent que notre modèle surpasse l'état de l'art avec une amélioration moyenne de 6.56% en ACC et de 5.32% en AUC dans les configurations d'attribution et de détection, respectivement. Les codes seront disponibles sur GitHub.
Point de départ de la recherche
Les détecteurs de deepfakes surpondèrent souvent l’apparence visuelle et se dégradent fortement dès qu’un nouveau générateur produit des artefacts différents de ceux vus à l’entraînement. Les auteurs partent de l’observation que les visages falsifiés présentent aussi des différences de comportement du regard et de préservation du regard, en particulier entre pipelines GAN et diffusion, et que cet indice reste sous-exploité. Leur motivation est d’améliorer à la fois l’attribution et la détection de deepfakes d’une manière qui généralise à des générateurs non vus, au lieu de s’effondrer à la prochaine sortie de modèle.
Méthode
GazeCLIP met en place un cadre de type CLIP sensible au regard, dans lequel les indices visuels de falsification et les prompts fondés sur le regard sont fusionnés dans un espace d’embeddings forensiques plus stable. La méthode introduit un gaze-aware image encoder et un language refinement encoder avec sélection adaptative de mots afin de rendre la branche textuelle plus précise lorsqu’elle décrit les indices d’authenticité. L’article construit aussi un benchmark plus fin, centré sur l’attribution et la détection face à de nouveaux générateurs de type diffusion et flow, ce qui renforce la crédibilité de l’évaluation.
À retenir
L’article est convaincant parce qu’il ajoute au kit de détection des deepfakes un nouvel indice anatomique — la cohérence du regard — au lieu de recycler sans fin un paradigme centré sur la texture. Ce déplacement explique aussi pourquoi la méthode progresse sur des générateurs non vus et pas seulement sur des jeux de données familiers. Pour les lecteurs qui suivent la défense contre la falsification faciale, GazeCLIP constitue un exemple solide de la manière dont le raisonnement multimodal peut devenir réellement utile.