← Zurück zum Blog

ForschungsradarFace SwappingarXivJuni 2026

Monatliches arXiv-Radar

Face Swapping im Juni 2026: conversational Talking Faces, schnelle Porträtanimation und Privacy Protection

Die Forschung teilt sich in interaktivere Talking Faces und stärkere Abwehr unerlaubter Identitätstransfers; Speed, Multi-Person-Verhalten und Schutz stehen im Vordergrund.

Was dieser Monat zeigt

Der Monat zeigt Synthese auf dem Weg zu interaktiven Systemen und spezifischere Abwehrmodelle; Käufer verlangen glaubwürdige Bewegung, niedrige Latenz und Guardrails.

Paper 012026-06-30cs.CV

Flexible, natürliche und effiziente Interaktion für conversational Talking-Face-Generierung

Autoren & Institutionen

Baiqin Wang

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Sen Chen

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Jiankuo Zhao

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Xiangyu Liu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Zhen Lei

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

CAIR, HKISI, Chinese Academy of Sciences

School of Computer Science and Engineering, Faculty of Innovation Engineering, Macau University of Science and Technology

Xiangyu Zhu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Welches Problem es löst

Die Arbeit schließt die Lücke zwischen Speaking-only-Generierung und echter Konversation mit variabler Teilnehmerzahl, langen Sessions, nonverbalem Feedback und niedriger Latenz.

Zentrales Ergebnis

Die Autoren berichten bessere Interaktionsqualität bei 30 FPS Echtzeitgenerierung, einem wichtigen Schwellenwert für Online-Konversation.

Abstract

InterTalk adressiert conversational Talking-Face-Generierung mit mehreren Teilnehmern über viele Dialogrunden. Motion-basierte Architektur, Feedback, iterative Generierung, disentangle facial components, Dataset und 3D-Augmentation ermöglichen 30 FPS.

Ausgangspunkt der Forschung

Talking-Face-Systeme entwickeln sich von Einzelclips zu Agenten, Tutoren, Assistenten und Meeting-Avataren; Zuhören und Turn-Taking zählen neben Lip Sync.

Methode

Das Framework modelliert Gesprächsdynamik pro Teilnehmer, nutzt Feedback-Bewegungen anderer Sprecher/Hörer, verfeinert iterativ und trennt Gesichtskomponenten wie Lippen, Blinzeln und Reaktionen.

Einordnung

InterTalk erweitert Face-Swapping/Talking-Head-Technik in Richtung interaktiver Digital Humans. Die Frage wird, ob glaubwürdige Mehrrollen-Interaktion in Echtzeit möglich ist.

Paper 022026-06-29cs.CV

SyncCache: asymmetrische Dynamiken für schnelle audiogesteuerte Porträtanimation

Autoren & Institutionen

Juncheng Ma

Shenzhen Graduate School, Peking University, China

Yuxuan Du

Shenzhen Graduate School, Peking University, China

Yanan Sun

Shanghai AI Laboratory, China

Zhening Xing

Shanghai AI Laboratory, China

Changlin Li

Tencent Hunyuan, China

Zhenyu Tang

Shenzhen Graduate School, Peking University, China

Bo Li

vivo, China

Peng-Tao Jiang

vivo, China

Li Yuan

Shenzhen Graduate School, Peking University, China

Daquan Zhou

Shenzhen Graduate School, Peking University, China

Yonghong Tian

Shenzhen Graduate School, Peking University, China

Welches Problem es löst

Die Arbeit korrigiert ein Mismatch generischer Diffusion-Caches: Text-to-Video-Annahmen passen nicht zu räumlichen und modalen Ungleichgewichten audio-getriebener Gesichter.

Zentrales Ergebnis

Die Methode meldet bis zu 4,12x Beschleunigung auf HunyuanVideo-Avatar und 3,75x auf Wan-S2V bei nahezu verlustfreier Qualität und präziser Audioausrichtung.

Abstract

SyncCache ist eine training-freie Beschleunigung für DiT-basierte audiogesteuerte Porträtanimation. Dynamische Menschenregionen und Audio-Bewegungen werden anders behandelt als stabile Hintergründe.

Ausgangspunkt der Forschung

Porträtanimations-Diffusionsmodelle werden leistungsfähig, aber langsam; Produktions-Avatare brauchen Speedups ohne Lip-Sync- oder Detailverlust.

Methode

SyncCache kombiniert Spatially-Asymmetric Probing, Modality-Decoupled Caching und speicheradaptive Offline-Cache-Auswahl. Audio-sensitive Teile werden neu berechnet, stabile Residuen gecacht.

Einordnung

SyncCache ist wertvoll, weil es Inferenzkosten ohne Retraining senkt. Avatar-Produkte gewinnen schnellere Previews, niedrigere Cloudkosten und bessere Chancen auf Interaktivität.

Paper 032026-06-30cs.CV

Phantom: einheitlicher Schutz vor Face-Swap-Deepfakes mit latenten und räumlichen Constraints

Autoren & Institutionen

Jungkon Kim

Samsung Electronics, AI Platform Center

Cheolseung Jung

Samsung Electronics, AI Platform Center

Jong-Min Choi

Samsung Electronics, AI Platform Center

Juseong Lee

Samsung Electronics, AI Platform Center

Welches Problem es löst

Die Arbeit adressiert Schwächen früherer adversarial protections: zufällige Targets erzeugen unklare latente Richtungen, unbeschränkter Noise streut in irrelevante Regionen.

Zentrales Ergebnis

Auf UniFace, INSwapper und SimSwap verbessert Phantom Dodging-Schutz um 27,8%, 25,6% und 16,6%; Impersonation-Schutz steigt bis zu 10,2%.

Abstract

Phantom ist ein proaktiver Schutz gegen Face-Swap-Deepfakes. Es erzeugt identity-shifted, aber attributerhaltende Targets und beschränkt Perturbationen auf semantisch relevante Gesichtsregionen.

Ausgangspunkt der Forschung

Deepfake-Erkennung ist reaktiv; Personen und Marken brauchen auch Schutz, der unerlaubtes Face Swapping vor der Erstellung stört.

Methode

Phantom optimiert latente und räumliche Constraints gemeinsam: attributerhaltende Targets definieren identity-aware Richtungen, maskierte Perturbationen wirken nur in semantisch wichtigen Bereichen.

Einordnung

Phantom ist wichtig, weil Face-Swap-Schutz als eigener Threat Model behandelt wird. Für Foto-Services, Prominente und Marken zählt der räumlich begrenzte Schutz, der Bilder nicht sichtbar beschädigt.