← Zurück zum Blog
ForschungsradarGesichtstauscharXivMärz 2026

Monatlicher arXiv-Radar

Face-Swapping-Papers im März 2026: 3D-Head-Swap, Identitätsvideo mit beliebiger Referenz und Gesichts-Diffusion

Die Face-Swapping-Forschung im März 2026 erweitert sich gleichzeitig in zwei Richtungen: realistischere, 3D-konsistente Swaps für Video und breitere identitätserhaltende Generierungssysteme, die aus beliebigen Referenzen steuerbare Porträts oder Clips erzeugen können. Für Produktteams bedeutet das, dass die technische Grenze zwischen Face Swap, Avatar-Generierung und steuerbarer Gesichtssynthese weiter schrumpft.

Was dieser Monat zeigt

Im Qualitätswettlauf dieses Monats geht es nicht mehr nur um einmaligen Identitätstransfer. Zeitliche Kohärenz, 3D-Struktur und Steuerbarkeit mit mehreren Referenzen werden zu den eigentlichen Differenzierungsmerkmalen.

Paper 012026-03-24cs.CV

GSwap: Realistisches Head-Swapping mit dynamischem Neural Gaussian Field

Autoren & Institutionen

Jingtao Zhou

School of Mathematical Science, University of Science and Technology of China

Department of Computer Science, City University of Hong Kong

Xuan Gao

School of Mathematical Science, University of Science and Technology of China

Dongyu Liu

School of Mathematical Science, University of Science and Technology of China

Junhui Hou

Department of Computer Science, City University of Hong Kong

Yudong Guo

School of Mathematical Science, University of Science and Technology of China

Juyong Zhang

School of Mathematical Science, University of Science and Technology of China

Welches Problem es löst

GSwap will Video-Head-Swapping realistischer machen, indem es über 2D-Generierung und vereinfachte 3DMM-Annahmen hinausgeht.

Zentrales Ergebnis

Die Autoren berichten über bessere visuelle Qualität, zeitliche Kohärenz, Identitätserhalt und 3D-Konsistenz als bei früheren Head-Swapping-Methoden. Das ist ein starkes Signal dafür, dass 3D-bewusste Swap-Pipelines schnell reifen.

Abstract

Wir präsentieren GSwap, ein neuartiges, konsistentes und realistisches System zum Head-Swapping in Videos, das durch dynamische neuronale Gaussian-Porträt-Priors ermöglicht wird und den Stand der Technik bei Gesichts- und Kopfersetzung deutlich voranbringt. Im Gegensatz zu früheren Methoden, die sich vorwiegend auf 2D-generative Modelle oder 3D Morphable Face Models (3DMM) stützen, überwindet unser Ansatz deren inhärente Beschränkungen, darunter geringe 3D-Konsistenz, unnatürliche Gesichtsausdrücke und eingeschränkte Synthesequalität. Darüber hinaus haben bestehende Techniken Schwierigkeiten mit vollständigen Head-Swapping-Aufgaben, da ganzheitliche Kopfmodellierung und effektive Hintergrundüberblendung unzureichend sind, was oft zu sichtbaren Artefakten und Fehlanpassungen führt. Um diese Herausforderungen zu adressieren, führt GSwap ein intrinsisches 3D-Gaussian-Feature-Feld ein, das in eine vollständige SMPL-X-Körperoberfläche eingebettet ist und 2D-Porträtvideos effektiv in ein dynamisches neuronales Gaussian-Feld überführt. Diese Innovation gewährleistet hochpräzises, 3D-konsistentes Porträtrendering bei Erhalt natürlicher Kopf-Rumpf-Beziehungen und nahtloser Bewegungsdynamik. Zur Erleichterung des Trainings passen wir ein vortrainiertes 2D-generatives Porträtmodell mit nur wenigen Referenzbildern an die Quelldomäne des Kopfes an, was effiziente Domänenanpassung ermöglicht. Darüber hinaus schlagen wir eine neuronale Re-Rendering-Strategie vor, die den synthetisierten Vordergrund harmonisch mit dem Originalhintergrund integriert, Überblendungsartefakte beseitigt und den Realismus erhöht. Umfangreiche Experimente zeigen, dass GSwap bestehende Methoden in mehreren Aspekten übertrifft, darunter visuelle Qualität, zeitliche Kohärenz, Identitätserhalt und 3D-Konsistenz.

Ausgangspunkt der Forschung

Video-Face-Swapping hat sich schnell verbessert, aber viele Systeme scheitern noch immer genau an den Details, die Nutzer zuerst bemerken: 3D-Konsistenz, natürliche Kopfbewegung und nahtloses Blending zwischen ausgetauschtem Kopf und restlichem Körper. Die Autoren reagieren auf die Grenzen von 2D-Generatoren und 3DMM-basierten Pipelines, die besonders dann Artefakte erzeugen, wenn sich die Aufgabe von Face Replacement zu vollständigem Head Replacement ausweitet. Ihre Grundannahme ist, dass realistisches Swapping in kommerzieller Qualität heute die Modellierung eines vollständigen dynamischen Porträts erfordert statt nur isolierte Gesichtstextur zu bearbeiten.

Methode

GSwap führt eine dynamische neural Gaussian portrait Repräsentation ein, die in eine SMPL-X-Körperoberfläche eingebettet ist, sodass Kopf, Torso und Bewegung gemeinsam modelliert werden, statt das Gesicht als isolierten 2D-Patch zu behandeln. Das System passt einen vortrainierten Porträtgenerator mit wenigen Referenzen an die Quellidentität an und nutzt anschließend neural re-rendering, damit sich der synthetisierte Vordergrund natürlicher in den ursprünglichen Hintergrund einfügt. Diese Kombination soll Identität erhalten, zeitliche Bewegung stabilisieren und den losgelösten oder fehljustierten Eindruck vermeiden, der in früheren Swapping-Systemen häufig vorkam.

Einordnung

Die Arbeit signalisiert klar, dass hochwertiges Face Swapping zu einem Problem der 3D-Videosynthese wird und nicht mehr nur ein Trick der 2D-Bildbearbeitung ist. Indem GSwap den Kopf als Teil eines vollständigen dynamischen Porträts behandelt, verbessert es Realismus genau dort, wo Nutzer am stärksten hinschauen: Bewegung, Struktur und Blending. Für alle, die Enterprise-taugliche Face-Swap-Technologie verfolgen, ist dies eine der wichtigsten Arbeiten im März 2026.

Paper 022026-03-26cs.CV

AnyID: Universelle identitätserhaltende Videogenerierung mit Ultra-Fidelity aus beliebigen visuellen Referenzen

Autoren & Institutionen

Jiahao Wang

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Hualian Sheng

Alibaba Cloud Computing

Sijia Cai

Alibaba Cloud Computing

Yuxiao Yang

Tsinghua University

Weizhan Zhang

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Caixia Yan

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Bing Deng

Alibaba Cloud Computing

Jieping Ye

Alibaba Cloud Computing

Welches Problem es löst

AnyID adressiert die Mehrdeutigkeit des Identitätstransfers, indem es heterogene Referenzen vereinheitlicht und eine primäre Referenz einführt, die die generierte Identität verankert.

Zentrales Ergebnis

Die Arbeit beansprucht eine extrem hohe Identitätstreue und stärkere Steuerbarkeit auf Attributebene als frühere Baselines für identitätserhaltende Videogenerierung.

Abstract

Identitätserhaltende Videogenerierung bietet leistungsfähige Werkzeuge für kreativen Ausdruck, da Nutzer Videos mit ihren geliebten Figuren individuell gestalten können. Vorherrschende Methoden sind jedoch typischerweise für nur eine einzige Identitätsreferenz ausgelegt und optimiert. Diese zugrunde liegende Annahme schränkt die kreative Flexibilität ein, weil unterschiedliche reale Eingabeformate nicht angemessen berücksichtigt werden. Die Abhängigkeit von einer einzigen Quelle stellt zudem ein schlecht gestelltes Szenario dar und erzeugt eine inhärent mehrdeutige Situation, die es dem Modell erschwert, eine Identität in neuen Kontexten getreu zu reproduzieren. Um diese Probleme anzugehen, präsentieren wir AnyID, ein Framework zur Videogenerierung mit ultra-hoher Identitätstreue, das zwei zentrale Beiträge umfasst. Erstens führen wir eine skalierbare omni-referenced Architektur ein, die heterogene Identitätseingaben (z. B. Gesichter, Porträts und Videos) wirksam in eine kohärente Repräsentation vereinheitlicht. Zweitens schlagen wir ein primary-referenced Generierungsparadigma vor, das eine Referenz als kanonischen Anker festlegt und einen neuartigen differentiellen Prompt nutzt, um präzise Steuerbarkeit auf Attributebene zu ermöglichen. Wir trainieren auf einem großskaligen, sorgfältig kuratierten Datensatz, um Robustheit und hohe Treue sicherzustellen, und führen anschließend eine abschließende Feinabstimmung mittels Reinforcement Learning durch. Dieser Prozess nutzt einen Präferenzdatensatz aus menschlichen Bewertungen, in denen Annotatoren Videos paarweise anhand zweier zentraler Kriterien verglichen: Identitätstreue und Steuerbarkeit durch Prompts. Umfangreiche Evaluierungen bestätigen, dass AnyID ultra-hohe Identitätstreue sowie überlegene Steuerbarkeit auf Attributebene über verschiedene Aufgabensettings hinweg erreicht.

Ausgangspunkt der Forschung

Viele identitätserhaltende Videosysteme setzen voraus, dass der Nutzer ein einziges sauberes, kanonisches Referenzbild liefern kann. Reale Produkte funktionieren jedoch selten so. Nutzer laden Mischungen aus Selfies, Porträts, Clips und unvollkommenen Assets hoch, was Identitätserhalt deutlich schwieriger macht und die Mehrdeutigkeit einer Single-Reference-Konditionierung offenlegt. Die Arbeit ist durch den Bedarf an einem flexibleren Framework motiviert, das heterogene Identitätshinweise aufnehmen kann, statt so zu tun, als reiche eine Referenz immer aus.

Methode

AnyID führt eine omni-referenced Architektur ein, die Gesichter, Porträts und Videos in eine einheitliche Identitätsrepräsentation überführt und anschließend eine primäre Referenz als Anker für die Generierung festlegt. Darüber hinaus ergänzt das System einen differential prompt Mechanismus, damit Nutzer Attribute steuern können, ohne die Identitätstreue zu verlieren, und nutzt reinforcement-learning-basiertes Fine-Tuning auf menschlichen Präferenzdaten, um sowohl Treue als auch Steuerbarkeit zu schärfen. Insgesamt soll das System unordentliche reale Referenzen in eine stabilere und besser nutzbare Identity-Conditioning-Pipeline verwandeln.

Einordnung

Die eigentliche Bedeutung von AnyID liegt nicht nur in besserem Identitätserhalt, sondern in einer besseren Produktannahme. Das System akzeptiert, dass Nutzer mehrere Referenzen, widersprüchliche Signale und unvollständige Identitätshinweise mitbringen, und entwirft die Generierung genau um diese Unordnung herum. Dadurch ist die Arbeit hochrelevant für die nächste Generation von Face-Swap-, Avatar- und personalisierten Medientools.

Paper 032026-03-30cs.CV

MMFace-DiT: Ein Dual-Stream Diffusion Transformer für hochpräzise multimodale Gesichtsgenerierung

Autoren & Institutionen

Bharath Krishnamurthy

University of North Texas, Denton, TX, USA

Ajita Rattani

University of North Texas, Denton, TX, USA

Welches Problem es löst

MMFace-DiT zielt auf hochpräzise multimodale Gesichtsgenerierung mit besserer Abstimmung zwischen semantischen Prompts und räumlicher Struktur, was auch fortgeschrittenen Face-Swapping-Workflows zugutekommt.

Zentrales Ergebnis

Die Autoren berichten über eine Verbesserung von 40% bei visueller Treue und Prompt-Ausrichtung gegenüber sechs früheren Baselines für multimodale Gesichtsgenerierung.

Abstract

Aktuelle multimodale Modelle zur Gesichtsgenerierung adressieren die räumlichen Steuerungsgrenzen von Text-zu-Bild-Diffusionsmodellen, indem sie textbasierte Konditionierung um räumliche Priors wie Segmentierungsmasken, Skizzen oder Edge Maps erweitern. Diese multimodale Fusion ermöglicht steuerbare Synthese, die sowohl mit hochrangiger semantischer Absicht als auch mit niedrigstufigem strukturellem Layout übereinstimmt. Die meisten bestehenden Ansätze erweitern jedoch vortrainierte Text-zu-Bild-Pipelines typischerweise durch das Anhängen zusätzlicher Kontrollmodule oder durch das Zusammensetzen separater unimodaler Netzwerke. Diese ad hoc entworfenen Lösungen übernehmen architektonische Einschränkungen, duplizieren Parameter und versagen häufig bei konfliktbehafteten Modalitäten oder nicht übereinstimmenden latenten Räumen, was ihre Fähigkeit zu synergistischer Fusion über semantische und räumliche Domänen hinweg begrenzt. Wir führen MMFace-DiT ein, einen einheitlichen Dual-Stream-Diffusion-Transformer, der für synergistische multimodale Gesichtssynthese entwickelt wurde. Seine zentrale Neuerung ist ein Dual-Stream-Transformer-Block, der räumliche (Maske/Skizze) und semantische (Text-)Tokens parallel verarbeitet und sie über einen geteilten Rotary Position-Embedded (RoPE) Attention-Mechanismus tief fusioniert. Dieses Design verhindert eine Dominanz einzelner Modalitäten und stellt eine starke Einhaltung sowohl textueller als auch struktureller Priors sicher, um eine bislang unerreichte räumlich-semantische Konsistenz für steuerbare Gesichtsgenerierung zu erzielen. Darüber hinaus ermöglicht ein neuartiger Modality Embedder, dass sich ein einziges kohärentes Modell ohne Retraining dynamisch an unterschiedliche räumliche Bedingungen anpasst. MMFace-DiT erreicht gegenüber sechs State-of-the-Art-Modellen für multimodale Gesichtsgenerierung eine Verbesserung von 40% bei visueller Treue und Prompt-Ausrichtung und etabliert damit ein flexibles neues Paradigma für durchgängig steuerbare generative Modellierung. Code und Datensatz sind auf unserer Projektseite verfügbar: https://vcbsl.github.io/MMFace-DiT/

Ausgangspunkt der Forschung

Multimodale Gesichtsgenerierung ist zwar steuerbarer geworden, doch viele bestehende Systeme beruhen noch immer auf Flickwerk-Designs, die Masken, Skizzen oder andere Steuerungen an Text-zu-Bild-Backbones anflanschen. Diese ad hoc Kombinationen versagen oft genau dann, wenn semantische Prompts und räumliche Einschränkungen widersprüchlich sind, also dort, wo Nutzer ein kontrollierbares System am meisten brauchen. Die Arbeit startet mit der Idee, dass multimodale Gesichtsgenerierung eine nativere Fusionsarchitektur benötigt und nicht nur einen weiteren Stapel externer Kontrollmodule.

Methode

MMFace-DiT nutzt einen Dual-Stream Diffusion Transformer, der semantische Eingaben und räumliche Steuerungen parallel verarbeitet und sie anschließend über gemeinsame Attention statt über spätes Patchwork integriert. Zusätzlich kommt ein Modality Embedder hinzu, sodass dasselbe Backbone unterschiedliche räumliche Bedingungen wie Masken oder Skizzen adaptieren kann, ohne für jede Steuerform separate Spezialmodelle neu zu trainieren. Dadurch wird die Methode zu einem einheitlicheren Framework für Gesichtssynthese und potenziell zu einer stärkeren Basis für künftige swap-orientierte Generierungssysteme.

Einordnung

Die Arbeit ist wichtig, weil kontrollierbare Gesichtsgenerierung zur grundlegenden Infrastruktur für Face Swapping, Avatar-Tools und Medienbearbeitung wird. MMFace-DiT argumentiert, dass bessere Generierungsqualität aus besserer multimodaler Fusion entsteht und nicht nur aus größeren Diffusionspipelines. Wenn sich diese These weiter bestätigt, könnten Architekturen wie diese die nächste Generation hochpräziser Gesichtsbearbeitungssysteme prägen.