著者・所属
Soumyya Kanti Datta
University at Buffalo, State University of New York
Shan Jia
University at Buffalo, State University of New York
Siwei Lyu
University at Buffalo, State University of New York
何を解決するか
細かなlocalizationの必要を扱う。security reviewerはvideo全体が怪しいかだけでなく、どのframe/segmentがfakeかを知る必要がある。
主要結果
LAV-DF、AVDF1M、FakeAVCeleb、KODFでSOTAを上回り、compression levelとdatasetをまたいだgeneralizationも報告される。
要旨
LoCCは、各mouth frameが時間的neighborから作られるcounterfactual reconstructionと一貫するかを調べてlip-sync deepfakeを検出する。diffusion reconstruction model、teacher network、student network、transformer aggregationによりsegment、frame、video levelで判断する。
研究の出発点
lip-sync改ざんはmouth regionだけが変わり、編集segmentが短いこともあるため、video全体やaudio-visual detectorではlocal inconsistencyを見逃しやすい。
手法
LoCCはreal mouth framesでdiffusion modelを学習し、隣接frameからmiddle frameを予測する。teacherはreconstruction errorと時間関係からsegment-level inconsistencyを学び、studentがframe-wise predictionへ蒸留し、transformerが長いcontextを統合する。
論文要点
LoCCは単一のopaque scoreではなくlocalized evidenceを出すためforensic workflowに有用である。counterfactual framingは、改ざんsignalが少数のmouth frameだけにあるshort-formや部分編集videoで特に効く。