← Retour au Blog
Radar de rechercheDétection de deepfakesarXivJuin 2026

Radar arXiv mensuel

Détection de deepfakes en juin 2026 : localisation lip-sync, forensique POI et calibration équitable

Les travaux privilégient la preuve opérationnelle : localiser les edits de bouche, comparer à des références d’identité et calibrer l’équité des détecteurs.

Ce que révèle ce mois-ci

Le mois suggère une défense en couches : localiser les petites manipulations, utiliser des références d’identité et calibrer pour éviter des erreurs concentrées.

Article 012026-06-22cs.CV

LoCC : détection et localisation de lip-sync deepfakes par cohérence contrefactuelle des frames

Auteurs & institutions

Soumyya Kanti Datta

University at Buffalo, State University of New York

Shan Jia

University at Buffalo, State University of New York

Siwei Lyu

University at Buffalo, State University of New York

Problème traité

Il répond au besoin de localisation fine : les analystes doivent savoir quels frames ou segments sont faux, pas seulement un score vidéo.

Résultat clé

Les auteurs rapportent des performances supérieures sur LAV-DF, AVDF1M, FakeAVCeleb et KODF, avec généralisation entre compressions et datasets.

Résumé

LoCC détecte les lip-sync deepfakes en comparant chaque frame de bouche à une reconstruction contrefactuelle depuis ses voisins temporels. Diffusion, teacher-student et transformer agrègent les décisions.

Point de départ de la recherche

Les manipulations lip-sync sont difficiles car seule la bouche change, parfois sur de courts segments ; les détecteurs globaux peuvent manquer l’incohérence locale.

Méthode

LoCC entraîne une diffusion sur de vrais frames de bouche pour reconstruire le frame central. Le teacher apprend l’incohérence segment, le student produit des prédictions frame-wise, puis un transformer agrège.

À retenir

LoCC fournit une preuve localisée plutôt qu’un score opaque. Le cadrage contrefactuel convient aux vidéos courtes ou partiellement modifiées.

Article 022026-06-18cs.CV

CUPID : reconstruction de cartes de texture UV pour une détection interprétable de deepfakes de personnes d’intérêt

Auteurs & institutions

Giovanni Affatato

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Sara Mandelli

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Edoardo Daniele Cannas

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Paolo Bestagini

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Stefano Tubaro

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Problème traité

Il traite trois limites pratiques : robustesse au post-traitement, inférence efficace et explication des régions faciales déviantes.

Résultat clé

Sur quatre datasets, les auteurs rapportent SOTA sur la plupart, meilleure robustesse au downscaling/compression et inférence beaucoup plus rapide.

Résumé

CUPID compare une vidéo requête à des références propres de la même identité. Il utilise des cartes UV issues de reconstructions 3D et un autoencodeur masqué pour comparaison et interprétation.

Point de départ de la recherche

Les personnalités publiques et dirigeants subissent des deepfakes ciblés ; les enquêteurs disposent souvent de références réelles qu’un détecteur POI exploite mieux.

Méthode

À l’entraînement, CUPID utilise seulement des vidéos réelles de nombreux sujets, sans fakes ni POI cible. À l’inférence, il compare embeddings UV et affiche des cartes résiduelles.

À retenir

CUPID est utile en entreprise et secteur public car il donne décision et résidu facial interprétable. C’est crucial pour revue humaine, explication et vidéos dégradées.

Article 032026-06-03cs.LG

Vers une détection de deepfakes calibrée, équitable et précise

Auteurs & institutions

Ryan Brown

University of Oxford

Chris Russell

University of Oxford

Problème traité

Il traite la friction de déploiement : labels démographiques, réentraînement ou perte d’accuracy souvent nécessaires.

Résultat clé

Dans les tests in-domain et cross-dataset, Face-Fairness réduit les écarts FPR/TPR, améliore le pire groupe et maintient ou améliore l’accuracy globale avec overhead négligeable.

Résumé

L’article présente Face-Fairness, post-traitement plug-in pour réduire le biais des détecteurs. Face-Feature Tuning remappe les logits via un calibrateur léger conditionné par embeddings faciaux gelés, sans labels démographiques ni réentraînement.

Point de départ de la recherche

Les acheteurs ont besoin de scores calibrés et d’erreurs équitables, pas seulement d’accuracy globale, car les erreurs peuvent se concentrer par groupe.

Méthode

Le cadre comprend FFT sans labels, FF-Max avec labels de groupe et FF-Discover via clusters d’embeddings. Tous opèrent après le détecteur, sans changer le modèle.

À retenir

Face-Fairness correspond aux achats réels : modèle fermé ou coûteux à réentraîner. Un calibrateur post-traitement sans labels d’identité aide gouvernance, audits et déploiement sûr.