LoCC: detección y localización de deepfakes lip-sync mediante consistencia contrafactual de frames
Autores e instituciones
Soumyya Kanti Datta
University at Buffalo, State University of New York
Shan Jia
University at Buffalo, State University of New York
Siwei Lyu
University at Buffalo, State University of New York
Qué problema resuelve
Resuelve la necesidad de localización fina: revisores necesitan saber qué frames o segmentos son falsos, no solo un label de video.
Resultado clave
Reportan rendimiento superior en LAV-DF, AVDF1M, FakeAVCeleb y KODF, con generalización entre compresiones y datasets.
Resumen
LoCC detecta lip-sync deepfakes comparando cada frame de boca con una reconstrucción contrafactual de sus vecinos temporales. Usa difusión, teacher-student y agregación transformer.
Punto de partida
Las manipulaciones lip-sync son difíciles porque cambian solo la boca y pueden durar poco; detectores holísticos pierden inconsistencias locales.
Método
Entrena difusión en frames reales de boca para predecir el frame central. El teacher aprende inconsistencia segmental; el student la destila a predicciones por frame y un transformer agrega contexto.
Conclusión del artículo
LoCC aporta evidencia localizada, no solo un score opaco. El enfoque contrafactual encaja con videos cortos o parcialmente editados donde pocas bocas contienen la señal.