LoCC: Erkennung und Lokalisierung von Lip-Sync-Deepfakes über kontrafaktische Frame-Konsistenz
Autoren & Institutionen
Soumyya Kanti Datta
University at Buffalo, State University of New York
Shan Jia
University at Buffalo, State University of New York
Siwei Lyu
University at Buffalo, State University of New York
Welches Problem es löst
Die Arbeit adressiert feinere Lokalisierung: Prüfer brauchen Frame- oder Segmenthinweise, nicht nur ein Video-Label.
Zentrales Ergebnis
Die Autoren berichten SOTA-Überlegenheit auf LAV-DF, AVDF1M, FakeAVCeleb und KODF sowie Generalisierung über Kompressionen und Datasets.
Abstract
LoCC erkennt Lip-Sync-Deepfakes, indem jeder Mund-Frame mit einer kontrafaktischen Rekonstruktion aus Nachbarframes verglichen wird. Diffusion-Reconstruction, Teacher/Student und Transformer-Aggregation liefern Segment-, Frame- und Video-Entscheidungen.
Ausgangspunkt der Forschung
Lip-Sync-Manipulationen sind schwierig, weil oft nur die Mundregion kurz geändert wird; holistische Video- oder Audio-Visual-Detektoren übersehen lokale Inkonsistenzen.
Methode
LoCC trainiert ein Diffusionsmodell auf realen Mundframes zur Mittelframe-Rekonstruktion. Der Teacher lernt Segment-Inkonsistenzen, der Student liefert Frame-Predictions, ein Transformer aggregiert Kontext.
Einordnung
LoCC ist nützlich für Forensik, weil es lokalisierte Evidenz statt eines einzigen Scores liefert. Der counterfactual Ansatz passt besonders zu kurzen oder partiell manipulierten Videos.