저자 및 소속
Soumyya Kanti Datta
University at Buffalo, State University of New York
Shan Jia
University at Buffalo, State University of New York
Siwei Lyu
University at Buffalo, State University of New York
해결하는 문제
세밀한 위치화 필요를 해결한다. 보안 검토자는 전체 영상 라벨뿐 아니라 어떤 프레임/구간이 가짜인지 알아야 한다.
핵심 결과
저자들은 LAV-DF, AVDF1M, FakeAVCeleb, KODF에서 기존 방법보다 우수하고 압축 수준/데이터셋을 넘어 일반화한다고 보고한다.
초록
LoCC는 각 입 프레임이 시간적 이웃으로부터 재구성된 반사실 프레임과 일관적인지 검사해 립싱크 딥페이크를 탐지한다. diffusion, teacher-student, transformer 집계를 쓴다.
연구 출발점
립싱크 조작은 입 영역만 바뀌고 구간이 짧을 수 있어 전체 영상/음성-영상 탐지기가 국소 불일치를 놓치기 쉽다.
방법
LoCC는 실제 입 프레임으로 diffusion을 학습해 인접 프레임에서 중간 프레임을 예측한다. teacher가 구간 불일치를 배우고 student가 프레임 예측으로 증류하며 transformer가 긴 맥락을 집계한다.
논문 요약
LoCC는 하나의 불투명 점수가 아니라 위치화된 증거를 제공해 포렌식 흐름에 유용하다. 짧거나 부분 편집된 영상에서 특히 적합하다.