LoCC: обнаружение и локализация lip-sync deepfakes через counterfactual frame consistency
Авторы и организации
Soumyya Kanti Datta
University at Buffalo, State University of New York
Shan Jia
University at Buffalo, State University of New York
Siwei Lyu
University at Buffalo, State University of New York
Какую задачу решает
Работа решает fine-grained localization: reviewers хотят знать fake frames/segments, не только video-level label.
Ключевой результат
Авторы сообщают SOTA на LAV-DF, AVDF1M, FakeAVCeleb и KODF, с generalization across compression levels and datasets.
Аннотация
LoCC обнаруживает lip-sync deepfakes, проверяя, согласован ли каждый mouth frame с counterfactual reconstruction из temporal neighbors. Используются diffusion, teacher-student и transformer aggregation.
Отправная точка исследования
Lip-sync manipulations сложны: меняется только mouth region и segment может быть коротким, поэтому holistic detectors пропускают local inconsistency.
Метод
LoCC обучает diffusion на real mouth frames для middle-frame prediction. Teacher учит segment inconsistency, student делает frame-wise predictions, transformer агрегирует long context.
Вывод по статье
LoCC полезен для forensics: дает localized evidence, а не один opaque score. Counterfactual framing особенно подходит для short-form и partially edited videos.