← Zurück zum Blog
ForschungsradarDeepfake-ErkennungarXivMärz 2026

Monatlicher arXiv-Radar

Deepfake-Erkennung im März 2026: Blick, Gesichtsteile, strukturiertes Reasoning und VLM-Semantik

Die Forschung zur Deepfake-Erkennung im März 2026 geht über reines Artefakt-Spotting hinaus. Die stärksten Arbeiten kombinieren anatomiebewusste Hinweise, teilbasierte Reasoning-Strategien und Vision-Language-Semantik, um über neue Generatoren hinweg besser zu generalisieren. Das macht das Thema auch aus SEO-Sicht besonders wertvoll, weil es sowohl akademische als auch kommerzielle Suchintentionen rund um Deepfake-Erkennung, Gesichtsfälschungserkennung und Vertrauen in KI-Medien abdeckt.

Was dieser Monat zeigt

Der glaubwürdigste Trend im März 2026 ist die forensische Spezialisierung: Statt darauf zu hoffen, dass ein generischer Backbone alles bemerkt, modellieren die besten Arbeiten Blick, Gesichtsteile oder gestuftes Reasoning explizit, um Evidenz kontrollierbarer zu erfassen.

Paper 012026-03-31cs.CV

GazeCLIP: Blickgesteuertes CLIP mit adaptiv verstärktem feingranularem Sprach-Prompt für Deepfake-Attribution und -Erkennung

Autoren & Institutionen

Yaning Zhang

Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China

Linlin Shen

Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China

National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China

Shenzhen Institute of Artificial Intelligence and Robotics for Society, China

Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China

Zitong Yu

School of Computing and Information Technology, Great Bay University, China

Chunjie Ma

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Zan Gao

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China

Welches Problem es löst

GazeCLIP adressiert sowohl Attribution als auch Erkennung und fragt, ob blickbewusste Hinweise die Generalisierung auf ungesehene Fälschungsmethoden verbessern können.

Zentrales Ergebnis

Auf dem Benchmark der Autoren übertrifft die Methode den bisherigen Stand der Technik im Setting mit ungesehenen Generatoren um 6.56% durchschnittliche Genauigkeit bei der Attribution und 5.32% AUC bei der Erkennung.

Abstract

Aktuelle Arbeiten zur Deepfake-Attribution oder Deepfake-Erkennung zeigen gegenüber neuartigen generativen Methoden aufgrund der begrenzten Erschließung rein visueller Modalitäten tendenziell eine geringe Generalisierung. Sie bewerten die Attributions- oder Erkennungsleistung von Modellen auf ungesehenen fortgeschrittenen Generatoren nur grob und berücksichtigen die Synergie beider Aufgaben nicht. Zu diesem Zweck schlagen wir ein neuartiges blickgesteuertes CLIP mit adaptiv verstärkten feingranularen Sprach-Prompts für feingranulare Deepfake-Attribution und -Erkennung (DFAD) vor. Konkret führen wir einen neuen feingranularen Benchmark ein, um die DFAD-Leistung von Netzwerken auf neuartigen Generatoren wie Diffusions- und Flow-Modellen zu evaluieren. Zusätzlich führen wir ein blickbewusstes Modell auf Basis von CLIP ein, das die Generalisierung auf ungesehene Gesichtsmanipulationsangriffe verbessern soll. Aufbauend auf der neuen Beobachtung, dass zwischen unverfälschten und gefälschten Blickvektoren signifikante Verteilungsunterschiede bestehen und dass die Erhaltung des Zielblicks in von GAN- und Diffusionsmodellen erzeugten Gesichtsbildern stark variiert, entwerfen wir einen visuellen Wahrnehmungsencoder, der die inhärenten Blickunterschiede nutzt, um globale Forgery-Embeddings über Erscheinungs- und Blickdomänen hinweg zu gewinnen. Wir schlagen einen gaze-aware image encoder (GIE) vor, der über einen Gaze-Encoder extrahierte Forgery-Gaze-Prompts mit allgemeinen Embeddings gefälschter Bilder fusioniert, um allgemeine Attributionsmuster zu erfassen, sodass Merkmale in einen stabileren und gemeinschaftlichen DFAD-Feature-Raum transformiert werden können. Wir entwickeln einen language refinement encoder (LRE), der mithilfe eines adaptiv verstärkten Wortselektors dynamisch verbesserte Sprach-Embeddings für präzises Vision-Language-Matching erzeugt. Umfangreiche Experimente auf unserem Benchmark zeigen, dass unser Modell den Stand der Technik bei durchschnittlicher Leistung um 6.56% ACC bzw. 5.32% AUC unter Attributions- bzw. Erkennungseinstellungen übertrifft. Der Code wird auf GitHub verfügbar sein.

Ausgangspunkt der Forschung

Deepfake-Detektoren überfokussieren oft das visuelle Erscheinungsbild und versagen stark, sobald ein neuer Generator andere Artefakte erzeugt als im Trainingssatz. Die Autoren gehen von der Beobachtung aus, dass gefälschte Gesichter auch Unterschiede im Blickverhalten und in der Blickerhaltung zeigen, insbesondere zwischen GAN- und Diffusionspipelines, und dass dieses Signal bislang nicht vollständig genutzt wird. Motiviert ist die Arbeit von dem Ziel, sowohl Deepfake-Attribution als auch -Erkennung so zu verbessern, dass sie auf ungesehene Generatoren generalisieren, statt beim nächsten Modell-Release zu kollabieren.

Methode

GazeCLIP baut ein blickbewusstes CLIP-artiges Framework auf, in dem visuelle Fälschungshinweise und gaze-basierte Prompts in einen stabileren forensischen Embedding-Raum fusioniert werden. Die Methode führt einen gaze-aware Image Encoder und einen Language Refinement Encoder mit adaptiver Wortauswahl ein, sodass der Textzweig Authentizitätshinweise präziser beschreibt. Zusätzlich konstruiert die Arbeit einen feingranulareren Benchmark für Attribution und Erkennung unter neuartigen Diffusions- und Flow-basierten Generatoren, was die Glaubwürdigkeit der Evaluation stärkt.

Einordnung

Die Arbeit überzeugt, weil sie mit Blickkonsistenz einen neuen anatomischen Hinweis in die Toolbox der Deepfake-Erkennung einführt, statt endlos das gleiche texturzentrierte Paradigma zu recyceln. Dieser Perspektivwechsel erklärt auch, warum die Methode bei ungesehenen Generatoren besser wird und nicht nur auf bekannten Datensätzen punktet. Für Leser, die sich mit Abwehr von Gesichtsmanipulation befassen, ist GazeCLIP ein starkes Beispiel dafür, wie multimodales Reasoning praktisch nützlich werden kann.

Paper 022026-03-27cs.CV

Face2Parts: Untersuchung grob-zu-fein abgestufter interregionaler Gesichtsabhängigkeiten für verallgemeinerbare Deepfake-Erkennung

Autoren & Institutionen

Kutub Uddin

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Nusrat Tasnim

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Byung Tae Oh

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Welches Problem es löst

Face2Parts soll grob-zu-fein Abhängigkeiten zwischen dem Gesamtbild, dem Gesichtsausschnitt und wichtigen Teilregionen wie Augen, Lippen und Nase erfassen.

Zentrales Ergebnis

Die Arbeit berichtet starke durchschnittliche AUC-Werte über viele Benchmark-Datensätze hinweg, darunter 98.42% auf FaceForensics++, sowie wettbewerbsfähige Cross-Dataset-Leistung auf DFDC, DFD und CDF-Varianten.

Abstract

Multimediadaten, insbesondere Bilder und Videos, sind integraler Bestandteil zahlreicher Anwendungen, darunter Überwachung, visuelle Interaktion, Biometrie, Beweissicherung und Werbung. Amateurhafte oder versierte Fälscher können sie jedoch simulieren, um Deepfakes zu erzeugen, oft mit verleumderischer Absicht. Um dieser Herausforderung zu begegnen, wurden verschiedene forensische Methoden entwickelt, um die Authentizität der Inhalte sicherzustellen. Die Wirksamkeit dieser Methoden hängt von ihrem Fokus ab, wobei aus der Vielfalt der Manipulationen zusätzliche Herausforderungen entstehen. In diesem Artikel analysieren wir bestehende forensische Methoden und beobachten, dass jede Methode einzigartige Stärken beim Erkennen von Deepfake-Spuren besitzt, indem sie sich auf bestimmte Gesichtsregionen konzentriert, etwa auf den Bildrahmen, das Gesicht, die Lippen, die Augen oder die Nase. Ausgehend von diesen Erkenntnissen schlagen wir einen neuartigen hybriden Ansatz namens Face2Parts auf Basis hierarchischer Merkmalsrepräsentation ($HFR$) vor, der grob-zu-fein Information nutzt, um die Deepfake-Erkennung zu verbessern. Die vorgeschlagene Methode extrahiert Merkmale aus dem Bildrahmen, dem Gesicht und wichtigen Gesichtsregionen (d. h. Lippen, Augen und Nase) separat, um die Beziehungen von grob zu fein zu erfassen. Dieser Ansatz ermöglicht es uns, mithilfe eines Channel-Attention-Mechanismus und tiefem Triplet Learning Interdependenzen zwischen Gesichtsregionen zu erfassen. Wir bewerteten die vorgeschlagene Methode auf Benchmark-Deepfake-Datensätzen in Intra-, Inter-Datensatz- und Inter-Manipulations-Szenarien. Die vorgeschlagene Methode erreicht eine durchschnittliche AUC von 98.42% auf FF++, 79.80% auf CDF1, 85.34% auf CDF2, 89.41% auf DFD, 84.07% auf DFDC, 95.62% auf DTIM, 80.76% auf PDD und 100% auf WLDR. Die Ergebnisse zeigen, dass unser Ansatz effektiv generalisiert und vielversprechende Leistung erzielt, die bestehende Methoden übertrifft.

Ausgangspunkt der Forschung

Deepfake-Detektionsmethoden sind oft deshalb stark, weil sie sich spezialisieren: Ein Modell ist gut an Gesichtsgrenzen, ein anderes in den Augenregionen und ein weiteres bei Mundartefakten. Die Autoren gehen davon aus, dass diese Stärken nicht konkurrieren, sondern integriert werden sollten, weil Fälschungen Evidenz auf verschiedenen Skalen und in unterschiedlichen Bildteilen hinterlassen. Ihr Ziel ist ein Detektor, der diese grob-zu-fein gestaffelte Vielfalt explizit erfasst, statt darauf zu hoffen, dass eine monolithische Feature-Map alles entdeckt.

Methode

Face2Parts extrahiert Merkmale aus dem Gesamtbild, dem Gesichtsausschnitt und mehreren wichtigen Gesichtsregionen wie Lippen, Augen und Nase und modelliert ihre Interaktionen über Channel Attention und Deep Triplet Learning. Diese hierarchische Merkmalsrepräsentation soll sowohl globalen Kontext als auch kleine lokale Artefakte erfassen und gleichzeitig lernen, wie sich die Regionen gegenseitig verstärken. Die Evaluation umfasst Intra-Dataset-, Cross-Dataset- und Cross-Manipulation-Settings, was wichtig ist, weil viele Detektoren genau dann scheitern, wenn sich der Manipulationsstil ändert.

Einordnung

Face2Parts ist nützlich, weil es einen sehr intuitiven forensischen Workflow formalisiert: zuerst das ganze Bild prüfen, dann ins Gesicht zoomen und anschließend in die verdächtigsten Teilbereiche. Die starken Benchmark-Ergebnisse deuten darauf hin, dass dieser gestufte Inspektionsprozess nicht nur interpretierbar, sondern auch effektiv ist. Für Praktiker ist das eine Erinnerung daran, dass Deepfake-Erkennung auch durch bessere Strukturierung von Evidenz besser werden kann und nicht nur durch größere Modelle.

Paper 032026-03-23cs.CV

VIGIL: Teilverankertes strukturiertes Reasoning für verallgemeinerbare Deepfake-Erkennung

Autoren & Institutionen

Xinghan Li

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Junhao Xu

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Jingjing Chen

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Welches Problem es löst

VIGIL trennt Planung und Untersuchung, sodass der Detektor zuerst entscheidet, welche Teile eine Inspektion verdienen, bevor Evidenz auf Teilebene eingespeist wird.

Zentrales Ergebnis

Über OmniFake und Cross-Dataset-Tests hinweg berichten die Autoren stärkere Generalisierung als sowohl Expertendetektoren als auch frühere MLLM-basierte Ansätze.

Abstract

Multimodale Large Language Models (MLLMs) bieten einen vielversprechenden Weg zu interpretierbarer Deepfake-Erkennung, indem sie textuelle Erklärungen erzeugen. Der Reasoning-Prozess aktueller MLLM-basierter Methoden kombiniert jedoch Evidenzerzeugung und Manipulationslokalisierung in einem einheitlichen Schritt. Diese Kombination verwischt die Grenze zwischen getreuen Beobachtungen und halluzinierten Erklärungen und führt zu unzuverlässigen Schlussfolgerungen. Darauf aufbauend präsentieren wir VIGIL, ein teilzentriertes strukturiertes forensisches Framework, das von fachkundiger forensischer Praxis inspiriert ist und einer plan-then-examine-Pipeline folgt: Das Modell plant zunächst anhand globaler visueller Hinweise, welche Gesichtsteile überprüft werden sollten, und untersucht dann jeden Teil mit unabhängig beschaffter forensischer Evidenz. Ein stufengesteuerter Injektionsmechanismus liefert forensische Evidenz auf Teilebene nur während der Untersuchung, sodass die Auswahl der Teile von der eigenen Wahrnehmung des Modells und nicht von externen Signalen bestimmt bleibt. Darüber hinaus schlagen wir ein progressives Trainingsparadigma in drei Stufen vor, dessen Reinforcement-Learning-Stufe part-aware Rewards einsetzt, um anatomische Validität und Kohärenz zwischen Evidenz und Schlussfolgerung durchzusetzen. Um eine strenge Evaluation der Generalisierbarkeit zu ermöglichen, konstruieren wir OmniFake, einen hierarchischen Benchmark mit 5 Ebenen, bei dem das Modell, trainiert nur auf drei grundlegenden Generatoren, schrittweise bis hin zu Social-Media-Daten aus der freien Wildbahn getestet wird. Umfangreiche Experimente auf OmniFake und Cross-Dataset-Evaluierungen zeigen, dass VIGIL sowohl Expertendetektoren als auch zeitgleiche MLLM-basierte Methoden auf allen Generalisierungsstufen konsistent übertrifft.

Ausgangspunkt der Forschung

MLLM-basierte Deepfake-Detektoren versprechen Erklärbarkeit, aber viele von ihnen vermischen zwei sehr unterschiedliche Schritte: zu entscheiden, was inspiziert werden soll, und zu behaupten, was die Evidenz bedeutet. Diese Vermengung macht Halluzinationen schwerer erkennbar, weil das Modell Beobachtung und Schlussfolgerung zugleich erfindet. Die Arbeit ist von dem Bedarf motiviert, diese Stufen zu trennen, damit Deepfake-Reasoning eher wie forensische Analyse und weniger wie flüssige Improvisation aussieht.

Methode

VIGIL nutzt eine Plan-then-Examine-Pipeline, in der das System zunächst auswählt, welche Gesichtsteile untersucht werden sollten, und erst danach regionsspezifische forensische Evidenz in den Reasoning-Prozess einspeist. Das Modell verwendet zudem stufengesteuerte Evidenzzufuhr und progressives Training mit part-aware Reinforcement-Rewards, damit Erklärungen an plausible Anatomie und konsistente Evidenzketten gebunden bleiben. Um die Generalisierung strenger zu testen, führt die Arbeit mit OmniFake außerdem einen Benchmark mit fünf Ebenen ein, der von grundlegenden Generatoren bis zu In-the-Wild-Social-Media-Daten reicht.

Einordnung

Der wichtigste Beitrag von VIGIL ist strukturell: Erklärbare Deepfake-Erkennung wird als Problem des Pipeline-Designs behandelt und nicht nur als Prompting-Problem. Indem der Detektor zuerst Teile auswählen und erst danach erklären muss, wird es leichter, fundierte Evidenz von halluziniertem Storytelling zu unterscheiden. Das macht die Arbeit besonders relevant für Teams, die Detektoren wollen, deren Erklärungen von Menschen geprüft und nicht nur in Demos bewundert werden können.

Paper 042026-03-25cs.CV

Vision-Language-Semantik für die Deepfake-Videoerkennung nutzbar machen

Autoren & Institutionen

Jiawen Zhu

Singapore Management University, Singapore

Yunqi Miao

The University of Warwick, UK

Xueyi Zhang

Nanyang Technological University, Singapore

Jiankang Deng

Imperial College London, UK

Guansong Pang

Singapore Management University, Singapore

Welches Problem es löst

VLAForge fragt, wie kreuzmodale Semantik in ein stärkeres diskriminatives Signal für sowohl klassische Face Swaps als auch neuere vollständig synthetische Gesichts-Videos umgewandelt werden kann.

Zentrales Ergebnis

Die Arbeit berichtet deutliche Zugewinne gegenüber früheren Verfahren zur Deepfake-Videoerkennung auf Frame- und Videoebene über Benchmarks für Face Swapping und Full-Face-Generation hinweg.

Abstract

Jüngste Studien zur Deepfake Video Detection (DFD) haben gezeigt, dass vortrainierte Vision-Language Models (VLMs) wie CLIP starke Generalisierungsfähigkeiten bei der Erkennung von Artefakten über verschiedene Identitäten hinweg besitzen. Bestehende Ansätze konzentrieren sich jedoch nur auf die Nutzung visueller Merkmale und übersehen ihre markanteste Stärke -- die reichhaltige Vision-Language-Semantik, die im latenten Raum eingebettet ist. Wir schlagen VLAForge vor, ein neuartiges DFD-Framework, das das Potenzial solcher kreuzmodalen Semantik freisetzt, um die Diskriminierbarkeit des Modells bei der Deepfake-Erkennung zu erhöhen. Diese Arbeit i) verbessert die visuelle Wahrnehmung des VLM durch einen ForgePerceiver, der als unabhängiger Lerner fungiert, um vielfältige subtile Fälschungshinweise sowohl granular als auch ganzheitlich zu erfassen, während das vortrainierte Wissen zur Vision-Language Alignment (VLA) erhalten bleibt, und ii) liefert einen komplementären diskriminativen Hinweis -- den Identity-Aware VLA Score, der aus der Kopplung kreuzmodaler Semantik mit den vom ForgePerceiver gelernten Fälschungshinweisen abgeleitet wird. Bemerkenswert ist, dass der VLA Score durch identity prior-informed Text Prompting erweitert wird, um auf jede Identität zugeschnittene Authentizitätshinweise zu erfassen und damit diskriminativere kreuzmodale Semantik zu ermöglichen. Umfassende Experimente auf Video-DFD-Benchmarks, einschließlich klassischer Face-Swapping-Fälschungen und neuerer Full-Face-Generation-Fälschungen, zeigen, dass unser VLAForge den Stand der Technik sowohl auf Frame- als auch auf Videoebene deutlich übertrifft. Der Code ist verfügbar unter https://github.com/mala-lab/VLAForge.

Ausgangspunkt der Forschung

Vision-Language-Modelle wie CLIP haben beeindruckende Transferfähigkeiten gezeigt, doch viele Verfahren zur Deepfake-Videoerkennung verwenden sie noch immer so, als wären sie nur stärkere visuelle Encoder. Die Autoren argumentieren, dass damit der markanteste Teil des Modells verschwendet wird: der kreuzmodale semantische Raum selbst. Ihre Motivation ist es, diese latente semantische Ausrichtung in ein diskriminatives Signal für die Deepfake-Erkennung zu verwandeln, insbesondere über klassische Face Swaps und neuere vollständig synthetische Gesichts-Videos hinweg.

Methode

Das vorgeschlagene Framework VLAForge ergänzt einen ForgePerceiver, der subtile Fälschungshinweise erschließt und zugleich die ursprüngliche Vision-Language-Ausrichtung des vortrainierten VLM bewahrt. Anschließend führt es einen identity-aware Vision-Language-Alignment-Score ein, unterstützt durch identity-informed Prompts, sodass der kreuzmodale Raum empfindlicher auf Authentizitätsmismatches reagiert. Dadurch kann der Detektor Artefaktwahrnehmung und semantischen Vergleich kombinieren, statt sich nur auf einen der beiden Aspekte zu verlassen.

Einordnung

Die zentrale Botschaft der Arbeit ist, dass Deepfake-Videoerkennung echte Robustheit gewinnen kann, wenn Vision-Language-Semantik richtig genutzt wird und nicht nur als Dekoration dient. VLAForge zeigt, dass semantische Ausrichtung, Identitäts-Priors und fälschungsspezifische Wahrnehmung zusammenarbeiten können, statt miteinander zu konkurrieren. Für Leser, die die Zukunft der Deepfake-Abwehr verfolgen, ist das ein bedeutender Schritt hin zu Detektoren, die sowohl besser generalisieren als auch konzeptionell sauberer begründet sind.