← Retour au Blog
Radar de rechercheDétection de deepfakesarXivMars 2026

Radar mensuel arXiv

Papiers de mars 2026 sur la détection des deepfakes : regard, parties du visage, raisonnement structuré et sémantique VLM

En mars 2026, la recherche sur la détection des deepfakes dépasse la simple chasse aux artefacts. Les meilleurs travaux combinent désormais des indices anatomiques, un raisonnement par parties et une sémantique vision-langage afin de mieux généraliser à de nouveaux générateurs. Ce sujet est donc particulièrement intéressant pour le SEO, car il couvre à la fois des intentions de recherche académiques et commerciales autour de la détection des deepfakes, de la détection de falsification faciale et de la confiance dans les médias générés par IA.

Ce que révèle ce mois-ci

La tendance la plus crédible de mars 2026 est la spécialisation forensique : au lieu d’espérer qu’un backbone générique remarque tout, les meilleurs travaux modélisent explicitement le regard, les parties du visage ou le raisonnement par étapes pour capturer la preuve de manière plus contrôlable.

Article 012026-03-31cs.CV

GazeCLIP : CLIP guidé par le regard avec prompt linguistique fin à renforcement adaptatif pour l’attribution et la détection de deepfakes

Auteurs & institutions

Yaning Zhang

Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China

Linlin Shen

Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China

National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China

Shenzhen Institute of Artificial Intelligence and Robotics for Society, China

Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China

Zitong Yu

School of Computing and Information Technology, Great Bay University, China

Chunjie Ma

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Zan Gao

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China

Problème traité

GazeCLIP vise à la fois l’attribution et la détection, en évaluant si des indices tenant compte du regard peuvent améliorer la généralisation à des méthodes de falsification inédites.

Résultat clé

Sur le benchmark des auteurs, la méthode dépasse l’état de l’art antérieur en scénario de générateurs non vus, avec +6.56% de précision moyenne pour l’attribution et +5.32% d’AUC pour la détection.

Résumé

Les travaux actuels sur l'attribution ou la détection des deepfakes présentent généralement une faible capacité de généralisation face à de nouvelles méthodes génératives, en raison d'une exploration limitée aux seules modalités visuelles. Ils ont tendance à évaluer de manière grossière les performances d'attribution ou de détection des modèles sur des générateurs avancés non vus, sans prendre en compte la synergie entre ces deux tâches. Dans ce but, nous proposons un nouveau CLIP guidé par le regard avec des prompts linguistiques fins et adaptativement enrichis pour l'attribution et la détection fines des deepfakes (DFAD). Plus précisément, nous introduisons un nouveau benchmark fin pour évaluer les performances DFAD des réseaux sur de nouveaux générateurs tels que les modèles de diffusion et de flux. En outre, nous présentons un modèle tenant compte du regard, basé sur CLIP, conçu pour améliorer la généralisation aux attaques inédites de falsification faciale. À partir de l'observation nouvelle selon laquelle il existe d'importantes différences de distribution entre les vecteurs de regard authentiques et falsifiés, et que la préservation du regard cible dans les images faciales générées par GAN et diffusion varie fortement, nous concevons un encodeur de perception visuelle qui exploite ces différences intrinsèques de regard pour extraire des embeddings globaux de falsification dans les domaines de l'apparence et du regard. Nous proposons un gaze-aware image encoder (GIE) qui fusionne des prompts de regard falsifié extraits via un encodeur de regard avec des embeddings d'images falsifiées classiques afin de capturer des motifs généraux d'attribution, permettant de transformer les caractéristiques dans un espace de caractéristiques DFAD plus stable et plus partagé. Nous construisons un language refinement encoder (LRE) pour générer des embeddings linguistiques dynamiquement enrichis via un sélecteur de mots à enrichissement adaptatif pour un appariement vision-langage précis. Des expériences approfondies sur notre benchmark montrent que notre modèle surpasse l'état de l'art avec une amélioration moyenne de 6.56% en ACC et de 5.32% en AUC dans les configurations d'attribution et de détection, respectivement. Les codes seront disponibles sur GitHub.

Point de départ de la recherche

Les détecteurs de deepfakes surpondèrent souvent l’apparence visuelle et se dégradent fortement dès qu’un nouveau générateur produit des artefacts différents de ceux vus à l’entraînement. Les auteurs partent de l’observation que les visages falsifiés présentent aussi des différences de comportement du regard et de préservation du regard, en particulier entre pipelines GAN et diffusion, et que cet indice reste sous-exploité. Leur motivation est d’améliorer à la fois l’attribution et la détection de deepfakes d’une manière qui généralise à des générateurs non vus, au lieu de s’effondrer à la prochaine sortie de modèle.

Méthode

GazeCLIP met en place un cadre de type CLIP sensible au regard, dans lequel les indices visuels de falsification et les prompts fondés sur le regard sont fusionnés dans un espace d’embeddings forensiques plus stable. La méthode introduit un gaze-aware image encoder et un language refinement encoder avec sélection adaptative de mots afin de rendre la branche textuelle plus précise lorsqu’elle décrit les indices d’authenticité. L’article construit aussi un benchmark plus fin, centré sur l’attribution et la détection face à de nouveaux générateurs de type diffusion et flow, ce qui renforce la crédibilité de l’évaluation.

À retenir

L’article est convaincant parce qu’il ajoute au kit de détection des deepfakes un nouvel indice anatomique — la cohérence du regard — au lieu de recycler sans fin un paradigme centré sur la texture. Ce déplacement explique aussi pourquoi la méthode progresse sur des générateurs non vus et pas seulement sur des jeux de données familiers. Pour les lecteurs qui suivent la défense contre la falsification faciale, GazeCLIP constitue un exemple solide de la manière dont le raisonnement multimodal peut devenir réellement utile.

Article 022026-03-27cs.CV

Face2Parts : exploration des dépendances faciales interrégionales coarse-to-fine pour une détection généralisée des deepfakes

Auteurs & institutions

Kutub Uddin

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Nusrat Tasnim

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Byung Tae Oh

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Problème traité

Face2Parts est conçu pour capturer les dépendances coarse-to-fine entre l’image complète, le recadrage du visage et des sous-régions clés comme les yeux, les lèvres et le nez.

Résultat clé

L’article rapporte une AUC moyenne solide sur un large ensemble de benchmarks, dont 98.42% sur FaceForensics++, ainsi qu’une performance cross-dataset compétitive sur les variantes DFDC, DFD et CDF.

Résumé

Les données multimédias, en particulier les images et les vidéos, sont essentielles à diverses applications, notamment la surveillance, l'interaction visuelle, la biométrie, la collecte de preuves et la publicité. Cependant, des contrefacteurs amateurs ou expérimentés peuvent les simuler pour créer des deepfakes, souvent à des fins diffamatoires. Pour relever ce défi, plusieurs méthodes forensiques ont été développées afin de garantir l'authenticité des contenus. L'efficacité de ces méthodes dépend de leur focalisation, des difficultés apparaissant en raison de la nature diverse des manipulations. Dans cet article, nous analysons les méthodes forensiques existantes et observons que chacune possède des atouts spécifiques pour détecter les traces de deepfake en se concentrant sur des régions faciales particulières, telles que le cadre, le visage, les lèvres, les yeux ou le nez. À partir de ces constats, nous proposons une nouvelle approche hybride appelée Face2Parts, fondée sur une représentation hiérarchique des caractéristiques ($HFR$), qui exploite des informations coarse-to-fine afin d'améliorer la détection de deepfakes. La méthode proposée consiste à extraire séparément des caractéristiques à partir du cadre, du visage et de régions faciales clés (à savoir les lèvres, les yeux et le nez) afin d'explorer les relations coarse-to-fine. Cette approche nous permet de capturer les interdépendances entre les régions faciales à l'aide d'un mécanisme d'attention de canal et d'un apprentissage profond par triplets. Nous avons évalué la méthode proposée sur des jeux de données de référence pour les deepfakes dans des configurations intra-dataset, inter-dataset et inter-manipulation. La méthode proposée atteint une AUC moyenne de 98.42% sur FF++, 79.80% sur CDF1, 85.34% sur CDF2, 89.41% sur DFD, 84.07% sur DFDC, 95.62% sur DTIM, 80.76% sur PDD et 100% sur WLDR, respectivement. Les résultats montrent que notre approche se généralise efficacement et obtient des performances prometteuses qui surpassent les méthodes existantes.

Point de départ de la recherche

Les méthodes de détection des deepfakes réussissent souvent par spécialisation : l’une est forte sur les contours du visage, une autre sur la région des yeux, une autre encore sur les artefacts autour de la bouche. Les auteurs partent de l’idée que ces forces ne devraient pas se concurrencer mais être intégrées, car les falsifications laissent des indices à différentes échelles et dans différentes parties de l’image. Leur objectif est de concevoir un détecteur qui capture explicitement cette diversité coarse-to-fine, au lieu d’espérer qu’une unique carte de caractéristiques monolithique la découvre seule.

Méthode

Face2Parts extrait des caractéristiques depuis l’image complète, le recadrage du visage et plusieurs régions faciales clés comme les lèvres, les yeux et le nez, puis modélise leurs interactions via une channel attention et un deep triplet learning. Cette représentation hiérarchique vise à capturer à la fois le contexte global et les petits artefacts locaux, tout en apprenant comment ces régions se renforcent mutuellement. L’évaluation couvre des scénarios intra-dataset, cross-dataset et inter-manipulation, ce qui est crucial car beaucoup de détecteurs échouent précisément quand le style de manipulation change.

À retenir

Face2Parts est utile parce qu’il formalise un workflow forensique très intuitif : d’abord inspecter l’image entière, puis zoomer sur le visage, puis encore sur les parties les plus suspectes. Les bons résultats de benchmark suggèrent que ce processus d’inspection par couches est non seulement interprétable, mais aussi efficace. Pour les praticiens, c’est un rappel que la détection des deepfakes peut encore progresser en structurant mieux la preuve, pas seulement en augmentant la taille des modèles.

Article 032026-03-23cs.CV

VIGIL : raisonnement structuré ancré sur les parties pour une détection généralisable des deepfakes

Auteurs & institutions

Xinghan Li

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Junhao Xu

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Jingjing Chen

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Problème traité

VIGIL sépare la planification de l’examen afin que le détecteur décide d’abord quelles parties méritent une inspection avant l’injection d’une preuve au niveau des parties.

Résultat clé

Sur OmniFake et dans les tests cross-dataset, les auteurs rapportent une généralisation plus forte que celle des détecteurs experts ainsi que des approches antérieures fondées sur des MLLM.

Résumé

Les grands modèles de langage multimodaux (MLLMs) offrent une voie prometteuse vers une détection interprétable des deepfakes en générant des explications textuelles. Cependant, le processus de raisonnement des méthodes actuelles basées sur les MLLMs combine la génération des preuves et la localisation des manipulations en une seule étape. Cette combinaison brouille la frontière entre observations fidèles et explications hallucinées, conduisant à des conclusions peu fiables. Dans cette continuité, nous présentons VIGIL, un cadre forensique structuré centré sur les parties du visage, inspiré de la pratique forensique experte à travers un pipeline plan-then-examine : le modèle planifie d'abord quelles parties du visage méritent une inspection sur la base d'indices visuels globaux, puis examine chaque partie à l'aide de preuves forensiques provenant de sources indépendantes. Un mécanisme d'injection à portes par étape fournit les preuves forensiques au niveau des parties uniquement pendant l'examen, garantissant que la sélection des parties reste pilotée par la propre perception du modèle plutôt que biaisée par des signaux externes. Nous proposons en outre un paradigme d'entraînement progressif en trois étapes dont la phase d'apprentissage par renforcement utilise des récompenses sensibles aux parties pour imposer la validité anatomique et la cohérence entre preuve et conclusion. Afin de permettre une évaluation rigoureuse de la généralisabilité, nous construisons OmniFake, un benchmark hiérarchique à 5 niveaux dans lequel le modèle, entraîné uniquement sur trois générateurs fondamentaux, est testé de manière progressive jusqu'à des données de réseaux sociaux in-the-wild. Des expériences approfondies sur OmniFake et des évaluations cross-dataset montrent que VIGIL surpasse systématiquement à la fois les détecteurs experts et les méthodes contemporaines fondées sur des MLLMs à tous les niveaux de généralisabilité.

Point de départ de la recherche

Les détecteurs de deepfakes fondés sur des MLLM promettent de l’explicabilité, mais beaucoup confondent deux étapes très différentes : décider quoi inspecter et affirmer ce que signifie la preuve. Cette fusion rend les hallucinations plus difficiles à repérer, car le modèle invente en même temps l’observation et la conclusion. L’article est motivé par la nécessité de séparer ces étapes afin que le raisonnement sur les deepfakes ressemble davantage à une analyse forensique qu’à une improvisation fluide.

Méthode

VIGIL repose sur un pipeline plan-then-examine dans lequel le système choisit d’abord les parties du visage à inspecter, puis injecte seulement ensuite des preuves forensiques spécifiques aux régions dans le processus de raisonnement. Le modèle utilise aussi une injection d’évidence contrôlée par étapes et un entraînement progressif avec des récompenses de reinforcement learning sensibles aux parties, afin que les explications restent liées à une anatomie plausible et à des chaînes de preuve cohérentes. Pour tester plus rigoureusement la généralisation, l’article introduit aussi OmniFake, un benchmark en cinq niveaux qui s’étend des générateurs fondamentaux jusqu’aux données in-the-wild issues des réseaux sociaux.

À retenir

La principale contribution de VIGIL est structurelle : il traite la détection explicable des deepfakes comme un problème de conception de pipeline, et non comme un simple problème de prompting. En forçant le détecteur à choisir d’abord les parties puis à expliquer ensuite, le cadre facilite la distinction entre preuve fondée et récit halluciné. Cela rend l’article particulièrement pertinent pour les équipes qui veulent des détecteurs dont les explications peuvent être relues par des humains, et pas seulement admirées en démo.

Article 042026-03-25cs.CV

Libérer la sémantique vision-langage pour la détection de vidéos deepfake

Auteurs & institutions

Jiawen Zhu

Singapore Management University, Singapore

Yunqi Miao

The University of Warwick, UK

Xueyi Zhang

Nanyang Technological University, Singapore

Jiankang Deng

Imperial College London, UK

Guansong Pang

Singapore Management University, Singapore

Problème traité

VLAForge cherche à savoir comment convertir la sémantique intermodale en un signal discriminant plus fort pour les face swaps classiques comme pour les vidéos synthétiques récentes de visage complet.

Résultat clé

L’article rapporte des gains substantiels par rapport aux méthodes antérieures de détection de vidéos deepfake, à la fois au niveau image et au niveau vidéo, sur des benchmarks de face-swapping et de génération de visage complet.

Résumé

De récentes études sur la détection de deepfakes vidéo (DFD) ont montré que des Vision-Language Models (VLMs) préentraînés tels que CLIP présentent de fortes capacités de généralisation pour détecter des artefacts à travers différentes identités. Cependant, les approches existantes se concentrent uniquement sur l'exploitation de caractéristiques visuelles, en négligeant leur force la plus distinctive : la richesse de la sémantique vision-langage intégrée dans l'espace latent. Nous proposons VLAForge, un nouveau cadre de DFD qui libère le potentiel de cette sémantique intermodale afin de renforcer le pouvoir discriminant du modèle pour la détection de deepfakes. Ce travail i) améliore la perception visuelle du VLM via un ForgePerceiver, qui agit comme un apprenant indépendant pour capturer des indices de falsification variés et subtils, à la fois de manière granulaire et holistique, tout en préservant les connaissances préentraînées de Vision-Language Alignment (VLA), et ii) fournit un indice discriminant complémentaire — le score VLA sensible à l'identité (Identity-Aware VLA score), obtenu en couplant la sémantique intermodale avec les indices de falsification appris par ForgePerceiver. Il est à noter que le score VLA est enrichi par un prompting textuel informé par un a priori d'identité afin de capturer des indices d'authenticité adaptés à chaque identité, permettant ainsi une sémantique intermodale plus discriminante. Des expériences approfondies sur des benchmarks vidéo de DFD, incluant les falsifications classiques par face-swapping ainsi que les récentes falsifications par génération de visage complet, montrent que VLAForge surpasse nettement les méthodes de pointe aux niveaux image et vidéo. Le code est disponible à l'adresse https://github.com/mala-lab/VLAForge.

Point de départ de la recherche

Les modèles vision-langage comme CLIP ont montré une forte capacité de transfert, mais de nombreuses méthodes de détection de vidéos deepfake les utilisent encore comme de simples encodeurs visuels plus puissants. Les auteurs estiment que cela gaspille la partie la plus distinctive du modèle : l’espace sémantique intermodal lui-même. Leur motivation est de transformer cet alignement sémantique latent en un signal discriminant pour la détection des deepfakes, en particulier pour généraliser à la fois aux face swaps classiques et aux vidéos synthétiques récentes de visage complet.

Méthode

Le cadre proposé VLAForge ajoute un ForgePerceiver pour extraire des indices subtils de falsification tout en préservant l’alignement vision-langage d’origine appris par le VLM préentraîné. Il introduit ensuite un score d’alignement vision-langage sensible à l’identité, soutenu par des prompts informés par l’identité, afin que l’espace intermodal devienne plus sensible aux incohérences d’authenticité. Le détecteur peut ainsi combiner perception des artefacts et comparaison sémantique au lieu de dépendre d’un seul de ces deux axes.

À retenir

Le message central de l’article est que la détection de vidéos deepfake peut gagner une vraie robustesse si elle exploite correctement la sémantique vision-langage au lieu de la traiter comme un simple décor. VLAForge montre que l’alignement sémantique, les a priori d’identité et la perception spécifique de falsification peuvent coopérer au lieu d’entrer en concurrence. Pour les lecteurs qui suivent l’avenir de la défense contre les deepfakes, c’est une étape importante vers des détecteurs à la fois plus généralisables et mieux fondés sur le plan conceptuel.