LoCC: detecção e localização de deepfakes lip-sync por consistência contrafactual de frames
Autores e instituições
Soumyya Kanti Datta
University at Buffalo, State University of New York
Shan Jia
University at Buffalo, State University of New York
Siwei Lyu
University at Buffalo, State University of New York
Que problema resolve
Resolve a necessidade de localização fina: analistas precisam saber quais frames ou segmentos são falsos, não só o rótulo do vídeo.
Resultado-chave
Relatam desempenho superior em LAV-DF, AVDF1M, FakeAVCeleb e KODF, com generalização entre compressões e datasets.
Resumo
LoCC detecta lip-sync deepfakes comparando cada frame da boca com uma reconstrução contrafactual de vizinhos temporais. Usa difusão, teacher-student e agregação transformer.
Ponto de partida da pesquisa
Manipulações lip-sync são difíceis porque só a boca muda e o segmento pode ser curto; detectores holísticos perdem inconsistência local.
Método
Treina difusão em frames reais da boca para prever o frame central. Teacher aprende inconsistência por segmento; student produz predições por frame; transformer agrega contexto.
Síntese do artigo
LoCC é útil em forense porque fornece evidência localizada, não só um score opaco. O enquadramento contrafactual serve para vídeos curtos ou parcialmente editados.