← Zurück zum Blog

ForschungsradarDeepfake-ErkennungarXivJuni 2026

Monatliches arXiv-Radar

Deepfake-Erkennung im Juni 2026: Lip-Sync-Lokalisierung, POI-Forensik und faire Kalibrierung

Die Arbeiten entfernen sich vom universellen Klassifikator hin zu operativer Evidenz: Mund-Edits lokalisieren, Identitätsreferenzen nutzen und Detektoren fair kalibrieren.

Was dieser Monat zeigt

Der Monat zeigt einen mehrschichtigen Defense-Stack: kleine Manipulationen lokalisieren, Identitätsreferenzen nutzen und Entscheidungen so kalibrieren, dass Fehler nicht Gruppen treffen.

Paper 012026-06-22cs.CV

LoCC: Erkennung und Lokalisierung von Lip-Sync-Deepfakes über kontrafaktische Frame-Konsistenz

Autoren & Institutionen

Soumyya Kanti Datta

University at Buffalo, State University of New York

Shan Jia

University at Buffalo, State University of New York

Siwei Lyu

University at Buffalo, State University of New York

Welches Problem es löst

Die Arbeit adressiert feinere Lokalisierung: Prüfer brauchen Frame- oder Segmenthinweise, nicht nur ein Video-Label.

Zentrales Ergebnis

Die Autoren berichten SOTA-Überlegenheit auf LAV-DF, AVDF1M, FakeAVCeleb und KODF sowie Generalisierung über Kompressionen und Datasets.

Abstract

LoCC erkennt Lip-Sync-Deepfakes, indem jeder Mund-Frame mit einer kontrafaktischen Rekonstruktion aus Nachbarframes verglichen wird. Diffusion-Reconstruction, Teacher/Student und Transformer-Aggregation liefern Segment-, Frame- und Video-Entscheidungen.

Ausgangspunkt der Forschung

Lip-Sync-Manipulationen sind schwierig, weil oft nur die Mundregion kurz geändert wird; holistische Video- oder Audio-Visual-Detektoren übersehen lokale Inkonsistenzen.

Methode

LoCC trainiert ein Diffusionsmodell auf realen Mundframes zur Mittelframe-Rekonstruktion. Der Teacher lernt Segment-Inkonsistenzen, der Student liefert Frame-Predictions, ein Transformer aggregiert Kontext.

Einordnung

LoCC ist nützlich für Forensik, weil es lokalisierte Evidenz statt eines einzigen Scores liefert. Der counterfactual Ansatz passt besonders zu kurzen oder partiell manipulierten Videos.

Paper 022026-06-18cs.CV

CUPID: Rekonstruktion von UV-Texturmaps für interpretierbare Person-of-Interest-Deepfake-Erkennung

Autoren & Institutionen

Giovanni Affatato

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Sara Mandelli

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Edoardo Daniele Cannas

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Paolo Bestagini

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Stefano Tubaro

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Welches Problem es löst

Die Arbeit adressiert drei Praxisprobleme zugleich: Robustheit gegen Post-Processing, effiziente Inferenz und Erklärungen zu abweichenden Gesichtsregionen.

Zentrales Ergebnis

Auf vier Deepfake-Datasets berichten die Autoren meist SOTA-Leistung, beste Robustheit gegen Downscaling/Kompression und deutlich schnellere Inferenz.

Abstract

CUPID ist ein Person-of-Interest-Detektor, der Query-Videos mit sauberen Referenzen derselben Identität vergleicht. UV-Texturmaps aus 3D-Rekonstruktionen und ein Masked Autoencoder liefern Vergleich und Interpretierbarkeit.

Ausgangspunkt der Forschung

Öffentliche Personen und Executives sind Ziel von Deepfakes; Ermittler haben oft echtes Referenzmaterial. POI-Detektoren nutzen diese Identitätsbelege direkter.

Methode

Im Training nutzt CUPID nur reale Videos vieler Personen, keine Fakes und nicht den Ziel-POI. Inferenz matcht UV-Embeddings gegen POI-Referenzen; Residualmaps zeigen verdächtige Regionen.

Einordnung

CUPID ist attraktiv für Enterprise und Public Sector, weil es Entscheidung und interpretierbares Residuum liefert. Das hilft bei menschlicher Prüfung, Stakeholder-Erklärung und degradierter Videoqualität.

Paper 032026-06-03cs.LG

Auf dem Weg zu kalibrierter, fairer und genauer Deepfake-Erkennung

Autoren & Institutionen

Ryan Brown

University of Oxford

Chris Russell

University of Oxford

Welches Problem es löst

Die Arbeit adressiert Deployment-Hürden vieler Fairnessmethoden: Demografieattribute, Retraining oder Accuracy-Verlust.

Zentrales Ergebnis

In In-Domain- und Cross-Dataset-Tests reduziert Face-Fairness FPR/TPR-Gaps, verbessert Minimum-Group-Accuracy und hält oder verbessert Gesamtaccuracy bei minimalem Overhead.

Abstract

Die Arbeit stellt Face-Fairness vor, ein Plug-in-Postprocessing für Bias-Mitigation in Deepfake-Detektoren. Face-Feature Tuning remappt Logits mit einem leichten Kalibrator auf Basis eingefrorener Face-Embeddings, ohne Demografie-Labels oder Retraining.

Ausgangspunkt der Forschung

Deepfake-Detector-Käufer brauchen kalibrierte Scores und faire Fehlerraten, nicht nur Gesamtgenauigkeit, weil Fehlergruppen demografisch konzentriert sein können.

Methode

Das Framework enthält FFT für label-freie Kalibrierung, FF-Max mit Gruppenlabels und FF-Discover über Embedding-Cluster. Alle arbeiten nach dem Detektor, das Basismodell bleibt unverändert.

Einordnung

Face-Fairness passt zu realen Beschaffungen: Basismodelle sind oft geschlossen oder teuer zu retrainen. Ein Postprocessing-Kalibrator ohne Identitätslabels bietet einen realistischeren Weg zu Governance, Audits und sicherem Rollout.