LoCC : détection et localisation de lip-sync deepfakes par cohérence contrefactuelle des frames
Auteurs & institutions
Soumyya Kanti Datta
University at Buffalo, State University of New York
Shan Jia
University at Buffalo, State University of New York
Siwei Lyu
University at Buffalo, State University of New York
Problème traité
Il répond au besoin de localisation fine : les analystes doivent savoir quels frames ou segments sont faux, pas seulement un score vidéo.
Résultat clé
Les auteurs rapportent des performances supérieures sur LAV-DF, AVDF1M, FakeAVCeleb et KODF, avec généralisation entre compressions et datasets.
Résumé
LoCC détecte les lip-sync deepfakes en comparant chaque frame de bouche à une reconstruction contrefactuelle depuis ses voisins temporels. Diffusion, teacher-student et transformer agrègent les décisions.
Point de départ de la recherche
Les manipulations lip-sync sont difficiles car seule la bouche change, parfois sur de courts segments ; les détecteurs globaux peuvent manquer l’incohérence locale.
Méthode
LoCC entraîne une diffusion sur de vrais frames de bouche pour reconstruire le frame central. Le teacher apprend l’incohérence segment, le student produit des prédictions frame-wise, puis un transformer agrège.
À retenir
LoCC fournit une preuve localisée plutôt qu’un score opaque. Le cadrage contrefactuel convient aux vidéos courtes ou partiellement modifiées.