저자 및 소속
Yaning Zhang
Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China
Linlin Shen
Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China
National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China
Shenzhen Institute of Artificial Intelligence and Robotics for Society, China
Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China
Zitong Yu
School of Computing and Information Technology, Great Bay University, China
Chunjie Ma
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Zan Gao
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China
해결하는 문제
GazeCLIP은 귀속과 탐지를 모두 겨냥하며, 시선 인지 단서가 보지 못한 위조 방식에 대한 일반화를 개선할 수 있는지를 묻는다.
핵심 결과
저자들이 구축한 벤치마크에서 이 방법은 미지 생성기 설정에서 기존 최고 성능을 넘어, 귀속 평균 정확도 6.56%, 탐지 AUC 5.32% 향상을 기록한다.
초록
현재의 deepfake attribution 및 deepfake detection 연구는 시각 모달리티만 제한적으로 탐색하기 때문에 새로운 생성 방법에 대한 일반화 성능이 낮은 경향이 있다. 또한 보지 못한 고도 생성기에 대한 귀속 또는 검출 성능을 거칠게 평가하는 데 그치며, 두 과제 간 시너지 역시 고려하지 않는다. 이를 위해 우리는 fine-grained deepfake attribution and detection(DFAD)을 위한 adaptive-enhanced fine-grained language prompts를 갖춘 새로운 gaze-guided CLIP을 제안한다. 구체적으로 diffusion 및 flow model과 같은 새로운 생성기에 대한 DFAD 성능을 평가하기 위해 새롭고 세밀한 벤치마크를 구축한다. 또한 보지 못한 얼굴 위조 공격에 대한 일반화를 향상시키도록 설계된 CLIP 기반 gaze-aware 모델을 도입한다. pristine과 forged gaze vector 사이에 유의미한 분포 차이가 존재하며, GAN과 diffusion으로 생성된 얼굴 이미지에서 목표 gaze의 보존 정도가 크게 다르다는 새로운 관찰에 기반하여, 외형과 gaze 도메인 전반에서 전역적 위조 임베딩을 발굴하는 visual perception encoder를 설계한다. 우리는 gaze encoder로 추출한 forgery gaze prompts와 일반적인 forged image embeddings를 융합하여 공통적인 귀속 패턴을 포착하는 gaze-aware image encoder(GIE)를 제안하며, 이를 통해 특징이 더 안정적이고 공통된 DFAD 특징 공간으로 변환되도록 한다. 또한 정밀한 vision-language matching을 위해 adaptive-enhanced word selector를 사용하여 동적으로 강화된 언어 임베딩을 생성하는 language refinement encoder(LRE)를 구축한다. 제안한 벤치마크에서의 광범위한 실험은 우리 모델이 귀속 설정과 검출 설정에서 각각 평균 성능 기준으로 state-of-the-art 대비 6.56% ACC와 5.32% AUC 향상을 달성함을 보여준다. 코드는 GitHub에 공개될 예정이다.
연구 출발점
딥페이크 탐지기는 이미지 외형에 과도하게 집중하는 경우가 많아, 새로운 생성기가 학습 세트와 다른 아티팩트를 만들면 성능이 크게 무너진다. 저자들은 위조 얼굴이 시선 행동과 시선 보존 측면에서도 차이를 보이며, 특히 GAN과 확산 파이프라인 사이에서 그 차이가 나타나지만 이 단서가 충분히 활용되지 않았다고 본다. 이 연구의 동기는 다음 모델 출시에서도 무너지지 않도록, 보지 못한 생성기까지 일반화되는 deepfake attribution과 detection을 함께 개선하는 데 있다.
방법
GazeCLIP은 시각적 위조 단서와 시선 기반 프롬프트를 더 안정적인 포렌식 임베딩 공간으로 융합하는 gaze-aware CLIP 계열 프레임워크를 구축한다. 이 방법은 gaze-aware image encoder와 적응형 단어 선택을 수행하는 language refinement encoder를 도입해, 진위 단서를 설명하는 텍스트 분기가 더 정밀해지도록 만든다. 또한 논문은 새로운 확산 및 flow 기반 생성기에서의 attribution과 detection에 초점을 둔 더 세밀한 벤치마크도 구성해 평가의 설득력을 높인다.
논문 요약
이 논문이 설득력 있는 이유는 텍스처 중심 패러다임을 반복하는 대신, 시선 일관성이라는 새로운 해부학적 단서를 딥페이크 탐지 도구 상자에 추가했기 때문이다. 이런 전환은 이 방법이 익숙한 데이터셋뿐 아니라 미지 생성기에서도 성능을 높이는 이유를 설명해 준다. 얼굴 위조 방어를 추적하는 독자에게 GazeCLIP은 멀티모달 추론이 실제로 유용해질 수 있음을 보여주는 강한 사례다.