리서치 레이더딥페이크 탐지arXiv2026년 3월

월간 arXiv 레이더

2026년 3월 딥페이크 탐지 논문: 시선, 얼굴 부위, 구조화 추론, VLM 의미론

2026년 3월의 딥페이크 탐지 연구는 단순한 아티팩트 탐지를 넘어가고 있다. 가장 강한 논문들은 해부학적 단서, 부위 수준 추론, 비전-언어 의미론을 결합해 새로운 생성기 전반에서의 일반화를 노린다. 그래서 이 주제는 deepfake detection, face forgery detection, AI media trust를 둘러싼 학술적·상업적 검색 의도를 함께 포괄한다는 점에서 SEO 가치도 높다.

이번 달이 보여주는 신호

2026년 3월의 가장 설득력 있는 흐름은 포렌식 전문화다. 범용 백본이 모든 것을 알아서 포착하길 기대하기보다, 상위 논문들은 시선, 얼굴 부위, 단계적 추론을 명시적으로 모델링해 더 통제 가능한 방식으로 증거를 포착한다.

논문 012026-03-31cs.CV

GazeCLIP: 딥페이크 귀속 및 탐지를 위한 적응 강화형 세밀 언어 프롬프트 기반 시선 유도 CLIP

arXiv PDF

저자 및 소속

Yaning Zhang

Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China

Linlin Shen

Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China

National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China

Shenzhen Institute of Artificial Intelligence and Robotics for Society, China

Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China

Zitong Yu

School of Computing and Information Technology, Great Bay University, China

Chunjie Ma

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Zan Gao

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China

해결하는 문제

GazeCLIP은 귀속과 탐지를 모두 겨냥하며, 시선 인지 단서가 보지 못한 위조 방식에 대한 일반화를 개선할 수 있는지를 묻는다.

핵심 결과

저자들이 구축한 벤치마크에서 이 방법은 미지 생성기 설정에서 기존 최고 성능을 넘어, 귀속 평균 정확도 6.56%, 탐지 AUC 5.32% 향상을 기록한다.

초록

현재의 deepfake attribution 및 deepfake detection 연구는 시각 모달리티만 제한적으로 탐색하기 때문에 새로운 생성 방법에 대한 일반화 성능이 낮은 경향이 있다. 또한 보지 못한 고도 생성기에 대한 귀속 또는 검출 성능을 거칠게 평가하는 데 그치며, 두 과제 간 시너지 역시 고려하지 않는다. 이를 위해 우리는 fine-grained deepfake attribution and detection(DFAD)을 위한 adaptive-enhanced fine-grained language prompts를 갖춘 새로운 gaze-guided CLIP을 제안한다. 구체적으로 diffusion 및 flow model과 같은 새로운 생성기에 대한 DFAD 성능을 평가하기 위해 새롭고 세밀한 벤치마크를 구축한다. 또한 보지 못한 얼굴 위조 공격에 대한 일반화를 향상시키도록 설계된 CLIP 기반 gaze-aware 모델을 도입한다. pristine과 forged gaze vector 사이에 유의미한 분포 차이가 존재하며, GAN과 diffusion으로 생성된 얼굴 이미지에서 목표 gaze의 보존 정도가 크게 다르다는 새로운 관찰에 기반하여, 외형과 gaze 도메인 전반에서 전역적 위조 임베딩을 발굴하는 visual perception encoder를 설계한다. 우리는 gaze encoder로 추출한 forgery gaze prompts와 일반적인 forged image embeddings를 융합하여 공통적인 귀속 패턴을 포착하는 gaze-aware image encoder(GIE)를 제안하며, 이를 통해 특징이 더 안정적이고 공통된 DFAD 특징 공간으로 변환되도록 한다. 또한 정밀한 vision-language matching을 위해 adaptive-enhanced word selector를 사용하여 동적으로 강화된 언어 임베딩을 생성하는 language refinement encoder(LRE)를 구축한다. 제안한 벤치마크에서의 광범위한 실험은 우리 모델이 귀속 설정과 검출 설정에서 각각 평균 성능 기준으로 state-of-the-art 대비 6.56% ACC와 5.32% AUC 향상을 달성함을 보여준다. 코드는 GitHub에 공개될 예정이다.

연구 출발점

딥페이크 탐지기는 이미지 외형에 과도하게 집중하는 경우가 많아, 새로운 생성기가 학습 세트와 다른 아티팩트를 만들면 성능이 크게 무너진다. 저자들은 위조 얼굴이 시선 행동과 시선 보존 측면에서도 차이를 보이며, 특히 GAN과 확산 파이프라인 사이에서 그 차이가 나타나지만 이 단서가 충분히 활용되지 않았다고 본다. 이 연구의 동기는 다음 모델 출시에서도 무너지지 않도록, 보지 못한 생성기까지 일반화되는 deepfake attribution과 detection을 함께 개선하는 데 있다.

방법

GazeCLIP은 시각적 위조 단서와 시선 기반 프롬프트를 더 안정적인 포렌식 임베딩 공간으로 융합하는 gaze-aware CLIP 계열 프레임워크를 구축한다. 이 방법은 gaze-aware image encoder와 적응형 단어 선택을 수행하는 language refinement encoder를 도입해, 진위 단서를 설명하는 텍스트 분기가 더 정밀해지도록 만든다. 또한 논문은 새로운 확산 및 flow 기반 생성기에서의 attribution과 detection에 초점을 둔 더 세밀한 벤치마크도 구성해 평가의 설득력을 높인다.

논문 요약

이 논문이 설득력 있는 이유는 텍스처 중심 패러다임을 반복하는 대신, 시선 일관성이라는 새로운 해부학적 단서를 딥페이크 탐지 도구 상자에 추가했기 때문이다. 이런 전환은 이 방법이 익숙한 데이터셋뿐 아니라 미지 생성기에서도 성능을 높이는 이유를 설명해 준다. 얼굴 위조 방어를 추적하는 독자에게 GazeCLIP은 멀티모달 추론이 실제로 유용해질 수 있음을 보여주는 강한 사례다.

논문 022026-03-27cs.CV

Face2Parts: 일반화 가능한 딥페이크 탐지를 위한 coarse-to-fine 얼굴 영역 간 의존성 탐색

arXiv PDF

저자 및 소속

Kutub Uddin

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Nusrat Tasnim

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Byung Tae Oh

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

해결하는 문제

Face2Parts는 전체 프레임, 얼굴 크롭, 그리고 눈·입술·코 같은 핵심 하위 영역 사이의 coarse-to-fine 의존성을 포착하도록 설계되었다.

핵심 결과

이 논문은 여러 벤치마크 전반에서 강한 평균 AUC를 보고하며, FaceForensics++에서 98.42%를 기록했고 DFDC, DFD, CDF 계열에서도 경쟁력 있는 cross-dataset 성능을 보인다.

초록

멀티미디어 데이터, 특히 이미지와 비디오는 감시, 시각적 상호작용, 바이오메트릭스, 증거 수집, 광고 등 다양한 응용에서 핵심적이다. 그러나 아마추어 또는 숙련된 위조자는 이를 모사하여 deepfake를 만들 수 있으며, 종종 비방 목적에 사용된다. 이러한 문제를 해결하기 위해 콘텐츠의 진위를 보장하기 위한 여러 포렌식 방법이 개발되어 왔다. 이들 방법의 효과는 어디에 초점을 맞추는지에 따라 달라지며, 조작의 다양성 때문에 도전 과제가 발생한다. 본 논문에서는 기존 포렌식 방법을 분석하고, 각 방법이 프레임, 얼굴, 입술, 눈, 코와 같은 특정 얼굴 영역에 집중함으로써 deepfake 흔적을 검출하는 데 고유한 강점을 가진다는 점을 관찰했다. 이러한 통찰을 바탕으로, coarse-to-fine 정보를 활용하여 deepfake 검출을 향상시키는 계층적 특징 표현(HFR) 기반의 새로운 하이브리드 접근법 Face2Parts를 제안한다. 제안 방법은 프레임, 얼굴, 그리고 주요 얼굴 영역인 입술, 눈, 코에서 특징을 각각 추출하여 coarse-to-fine 관계를 탐색한다. 이를 통해 channel-attention 메커니즘과 deep triplet learning을 사용하여 얼굴 영역 간 상호 의존성을 포착할 수 있다. 우리는 제안 방법을 벤치마크 deepfake 데이터셋에서 intra-dataset, inter-dataset, inter-manipulation 설정으로 평가했다. 제안 방법은 각각 FF++에서 평균 AUC 98.42%, CDF1에서 79.80%, CDF2에서 85.34%, DFD에서 89.41%, DFDC에서 84.07%, DTIM에서 95.62%, PDD에서 80.76%, WLDR에서 100%를 달성했다. 이러한 결과는 우리 접근법이 효과적으로 일반화되며 기존 방법을 능가하는 유망한 성능을 보인다는 것을 입증한다.

연구 출발점

딥페이크 탐지 방법은 종종 전문화로 강점을 보인다. 어떤 모델은 얼굴 경계에 강하고, 어떤 모델은 눈 영역에, 또 다른 모델은 입 주변 아티팩트에 강하다. 저자들은 이런 강점이 경쟁할 것이 아니라 통합되어야 한다고 본다. 위조 흔적은 서로 다른 스케일과 서로 다른 이미지 부위에 남기 때문이다. 이들의 목표는 하나의 거대한 특징 맵이 모든 것을 알아서 찾길 기대하는 대신, 이런 coarse-to-fine 다양성을 명시적으로 포착하는 탐지기를 설계하는 것이다.

방법

Face2Parts는 전체 프레임, 얼굴 크롭, 그리고 입술·눈·코 같은 핵심 얼굴 영역에서 특징을 추출한 뒤, channel attention과 deep triplet learning으로 이들 간 상호작용을 모델링한다. 이런 계층적 특징 표현은 전역 문맥과 작은 국소 아티팩트를 함께 포착하고, 각 영역이 서로를 어떻게 보완하는지도 학습하도록 설계되었다. 평가는 intra-dataset, cross-dataset, inter-manipulation 설정을 모두 포함하는데, 이는 많은 탐지기가 조작 스타일이 바뀔 때 정확히 무너진다는 점에서 중요하다.

논문 요약

Face2Parts의 가치는 매우 직관적인 포렌식 워크플로를 공식화했다는 데 있다. 먼저 전체 이미지를 보고, 다음으로 얼굴을 확대하고, 마지막으로 가장 의심스러운 부위를 더 자세히 본다. 강한 벤치마크 결과는 이런 층위적 검사 과정이 해석 가능할 뿐 아니라 실제로도 효과적임을 시사한다. 실무자에게 이는 딥페이크 탐지가 모델 크기 확장뿐 아니라 증거를 더 잘 구조화하는 방식으로도 개선될 수 있음을 상기시킨다.

논문 032026-03-23cs.CV

VIGIL: 일반화 가능한 딥페이크 탐지를 위한 부위 기반 구조화 추론

arXiv PDF

저자 및 소속

Xinghan Li

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Junhao Xu

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Jingjing Chen

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

해결하는 문제

VIGIL은 계획과 검사를 분리해, 부위 수준 증거를 주입하기 전에 어떤 부위를 살펴볼 가치가 있는지 탐지기가 먼저 결정하게 한다.

핵심 결과

OmniFake와 cross-dataset 테스트 전반에서 저자들은 전문가형 탐지기와 기존 MLLM 기반 접근 모두보다 더 강한 일반화 성능을 보고한다.

초록

Multimodal large language models(MLLMs)는 텍스트 설명을 생성함으로써 해석 가능한 deepfake 검출을 향한 유망한 경로를 제공한다. 그러나 현재의 MLLM 기반 방법은 증거 생성과 조작 위치 추정을 하나의 단계로 결합한다. 이러한 결합은 충실한 관찰과 환각된 설명의 경계를 흐리게 하여 신뢰하기 어려운 결론으로 이어진다. 이에 기반하여 우리는 전문가 포렌식 실무에서 영감을 받은 part-centric structured forensic framework인 VIGIL을 제안한다. VIGIL은 plan-then-examine 파이프라인을 채택하여, 먼저 전역 시각 단서를 바탕으로 어떤 얼굴 부위를 검사할지 계획하고, 그 다음 각 부위를 독립적으로 확보된 포렌식 증거로 검사한다. stage-gated injection mechanism은 부위 수준의 포렌식 증거를 검사 단계에서만 주입하여, 부위 선택이 외부 신호에 편향되지 않고 모델 자체의 지각에 의해 결정되도록 보장한다. 또한 해부학적 타당성과 증거-결론 일관성을 강제하기 위해, 강화학습 단계에서 part-aware reward를 사용하는 점진적 3단계 학습 패러다임을 제안한다. 엄격한 일반화 평가를 가능하게 하기 위해, 단 세 개의 기초 생성기만으로 학습한 모델을 점차 in-the-wild 소셜 미디어 데이터까지 시험하는 계층적 5-Level 벤치마크 OmniFake를 구축했다. OmniFake와 교차 데이터셋 평가에서의 광범위한 실험은 VIGIL이 모든 일반화 수준에서 전문가 검출기와 동시대 MLLM 기반 방법들을 일관되게 능가함을 보여준다.

연구 출발점

MLLM 기반 딥페이크 탐지기는 설명 가능성을 약속하지만, 많은 방법은 무엇을 살필지 결정하는 단계와 그 증거가 무엇을 의미하는지 주장하는 단계를 뒤섞는다. 이런 결합은 모델이 관찰과 결론을 동시에 만들어내게 하므로 환각을 식별하기 더 어렵게 만든다. 이 논문의 동기는 이 단계들을 분리해 딥페이크 추론이 유창한 즉흥 설명이 아니라 포렌식 분석에 더 가깝도록 만드는 데 있다.

방법

VIGIL은 먼저 계획하고 나중에 검사하는 plan-then-examine 파이프라인을 사용해, 시스템이 먼저 어떤 얼굴 부위를 조사할지 고른 뒤 그 다음에야 영역별 포렌식 증거를 추론 과정에 주입한다. 또한 단계 게이팅 방식의 증거 전달과 part-aware 강화학습 보상을 포함한 점진적 학습을 사용해, 설명이 그럴듯한 해부학과 일관된 증거 사슬에 묶이도록 만든다. 일반화를 더 엄격히 시험하기 위해 논문은 기초 생성기에서 in-the-wild 소셜 미디어 데이터까지 확장되는 5단계 벤치마크 OmniFake도 도입한다.

논문 요약

VIGIL의 가장 큰 기여는 구조적 설계에 있다. 설명 가능한 딥페이크 탐지를 단순한 프롬프팅 문제가 아니라 파이프라인 설계 문제로 다룬다. 탐지기가 먼저 부위를 선택하고 그다음 설명하게 함으로써, 이 프레임워크는 근거 있는 증거와 환각적 서사를 더 쉽게 구분하게 만든다. 그래서 사람의 검토를 견딜 수 있는 설명을 원하는 팀에게 특히 중요한 논문이다.

논문 042026-03-25cs.CV

딥페이크 비디오 탐지를 위한 비전-언어 의미론의 활용

arXiv PDF

저자 및 소속

Jiawen Zhu

Singapore Management University, Singapore

Yunqi Miao

The University of Warwick, UK

Xueyi Zhang

Nanyang Technological University, Singapore

Jiankang Deng

Imperial College London, UK

Guansong Pang

Singapore Management University, Singapore

해결하는 문제

VLAForge는 교차 모달 의미를 고전적 face swap과 새로운 full-face synthetic video 모두에 대해 더 강한 판별 신호로 어떻게 바꿀 수 있는지를 다룬다.

핵심 결과

이 논문은 face-swapping과 full-face generation 벤치마크 전반에서 프레임 수준과 비디오 수준 모두에서 기존 deepfake 비디오 탐지 방법 대비 큰 향상을 보고한다.

초록

최근 Deepfake Video Detection(DFD) 연구는 CLIP과 같은 사전학습된 Vision-Language Models(VLMs)가 서로 다른 신원 간 아티팩트를 검출하는 데 강한 일반화 능력을 보인다는 점을 입증했다. 그러나 기존 접근법은 시각 특징 활용에만 집중하여, 잠재공간에 내재된 풍부한 vision-language semantics라는 가장 두드러진 강점을 간과하고 있다. 우리는 이러한 교차 모달 의미 정보를 활용해 deepfake 검출에서 모델의 판별력을 향상시키는 새로운 DFD 프레임워크 VLAForge를 제안한다. 본 연구는 i) ForgePerceiver를 통해 VLM의 시각 지각을 강화한다. ForgePerceiver는 독립적인 학습자로 작동하여 사전학습된 Vision-Language Alignment(VLA) 지식을 보존하면서도, 세밀한 수준과 전체적 수준 모두에서 다양한 미묘한 위조 단서를 포착한다. ii) ForgePerceiver가 학습한 위조 단서와 교차 모달 의미를 결합해 도출되는 보완적 판별 단서인 Identity-Aware VLA score를 제공한다. 특히 이 VLA score는 각 신원에 맞춘 진위 단서를 포착하기 위해 신원 사전정보가 반영된 텍스트 프롬프팅으로 강화되며, 그 결과 더 판별적인 교차 모달 의미 표현이 가능해진다. 고전적인 face-swapping 위조와 최근의 full-face generation 위조를 포함한 비디오 DFD 벤치마크에 대한 포괄적 실험은 VLAForge가 프레임 수준과 비디오 수준 모두에서 state-of-the-art 방법들을 크게 능가함을 보여준다. 코드는 https://github.com/mala-lab/VLAForge 에서 제공된다.

연구 출발점

CLIP 같은 비전-언어 모델은 인상적인 전이 능력을 보여줬지만, 많은 딥페이크 비디오 탐지 방법은 여전히 이를 더 강한 시각 인코더 정도로만 사용한다. 저자들은 이것이 모델의 가장 독특한 가치인 교차 모달 의미 공간 자체를 낭비하는 것이라고 본다. 이 연구의 동기는 그 잠재적 의미 정렬을 클래식 face swap과 새로운 full-face synthetic video 모두에 걸쳐 일반화되는 판별 신호로 바꾸는 데 있다.

방법

제안된 VLAForge 프레임워크는 사전학습된 VLM이 이미 학습한 원래의 vision-language alignment를 보존하면서, 미묘한 위조 단서를 발굴하는 ForgePerceiver를 추가한다. 이어서 identity-informed prompt로 보강된 identity-aware vision-language alignment score를 도입해, 교차 모달 공간이 진위 불일치에 더 민감해지도록 만든다. 이로써 탐지기는 단순히 하나의 신호에 의존하는 대신, 아티팩트 지각과 의미 비교를 함께 결합할 수 있다.

논문 요약

이 논문의 핵심 메시지는 딥페이크 비디오 탐지가 비전-언어 의미론을 장식이 아니라 제대로 활용할 때 실질적인 강건성을 얻을 수 있다는 점이다. VLAForge는 의미 정렬, 신원 사전정보, 위조 특화 지각이 서로 경쟁하는 대신 함께 작동할 수 있음을 보여준다. 딥페이크 방어의 미래를 추적하는 독자에게 이는 더 잘 일반화되고 개념적으로도 더 탄탄한 탐지기로 나아가는 의미 있는 한 걸음이다.