GSwap: Realistisches Head-Swapping mit dynamischem Neural Gaussian Field
Autoren & Institutionen
Jingtao Zhou
School of Mathematical Science, University of Science and Technology of China
Department of Computer Science, City University of Hong Kong
Xuan Gao
School of Mathematical Science, University of Science and Technology of China
Dongyu Liu
School of Mathematical Science, University of Science and Technology of China
Junhui Hou
Department of Computer Science, City University of Hong Kong
Yudong Guo
School of Mathematical Science, University of Science and Technology of China
Juyong Zhang
School of Mathematical Science, University of Science and Technology of China
Welches Problem es löst
GSwap will Video-Head-Swapping realistischer machen, indem es über 2D-Generierung und vereinfachte 3DMM-Annahmen hinausgeht.
Zentrales Ergebnis
Die Autoren berichten über bessere visuelle Qualität, zeitliche Kohärenz, Identitätserhalt und 3D-Konsistenz als bei früheren Head-Swapping-Methoden. Das ist ein starkes Signal dafür, dass 3D-bewusste Swap-Pipelines schnell reifen.
Abstract
Wir präsentieren GSwap, ein neuartiges, konsistentes und realistisches System zum Head-Swapping in Videos, das durch dynamische neuronale Gaussian-Porträt-Priors ermöglicht wird und den Stand der Technik bei Gesichts- und Kopfersetzung deutlich voranbringt. Im Gegensatz zu früheren Methoden, die sich vorwiegend auf 2D-generative Modelle oder 3D Morphable Face Models (3DMM) stützen, überwindet unser Ansatz deren inhärente Beschränkungen, darunter geringe 3D-Konsistenz, unnatürliche Gesichtsausdrücke und eingeschränkte Synthesequalität. Darüber hinaus haben bestehende Techniken Schwierigkeiten mit vollständigen Head-Swapping-Aufgaben, da ganzheitliche Kopfmodellierung und effektive Hintergrundüberblendung unzureichend sind, was oft zu sichtbaren Artefakten und Fehlanpassungen führt. Um diese Herausforderungen zu adressieren, führt GSwap ein intrinsisches 3D-Gaussian-Feature-Feld ein, das in eine vollständige SMPL-X-Körperoberfläche eingebettet ist und 2D-Porträtvideos effektiv in ein dynamisches neuronales Gaussian-Feld überführt. Diese Innovation gewährleistet hochpräzises, 3D-konsistentes Porträtrendering bei Erhalt natürlicher Kopf-Rumpf-Beziehungen und nahtloser Bewegungsdynamik. Zur Erleichterung des Trainings passen wir ein vortrainiertes 2D-generatives Porträtmodell mit nur wenigen Referenzbildern an die Quelldomäne des Kopfes an, was effiziente Domänenanpassung ermöglicht. Darüber hinaus schlagen wir eine neuronale Re-Rendering-Strategie vor, die den synthetisierten Vordergrund harmonisch mit dem Originalhintergrund integriert, Überblendungsartefakte beseitigt und den Realismus erhöht. Umfangreiche Experimente zeigen, dass GSwap bestehende Methoden in mehreren Aspekten übertrifft, darunter visuelle Qualität, zeitliche Kohärenz, Identitätserhalt und 3D-Konsistenz.
Ausgangspunkt der Forschung
Video-Face-Swapping hat sich schnell verbessert, aber viele Systeme scheitern noch immer genau an den Details, die Nutzer zuerst bemerken: 3D-Konsistenz, natürliche Kopfbewegung und nahtloses Blending zwischen ausgetauschtem Kopf und restlichem Körper. Die Autoren reagieren auf die Grenzen von 2D-Generatoren und 3DMM-basierten Pipelines, die besonders dann Artefakte erzeugen, wenn sich die Aufgabe von Face Replacement zu vollständigem Head Replacement ausweitet. Ihre Grundannahme ist, dass realistisches Swapping in kommerzieller Qualität heute die Modellierung eines vollständigen dynamischen Porträts erfordert statt nur isolierte Gesichtstextur zu bearbeiten.
Methode
GSwap führt eine dynamische neural Gaussian portrait Repräsentation ein, die in eine SMPL-X-Körperoberfläche eingebettet ist, sodass Kopf, Torso und Bewegung gemeinsam modelliert werden, statt das Gesicht als isolierten 2D-Patch zu behandeln. Das System passt einen vortrainierten Porträtgenerator mit wenigen Referenzen an die Quellidentität an und nutzt anschließend neural re-rendering, damit sich der synthetisierte Vordergrund natürlicher in den ursprünglichen Hintergrund einfügt. Diese Kombination soll Identität erhalten, zeitliche Bewegung stabilisieren und den losgelösten oder fehljustierten Eindruck vermeiden, der in früheren Swapping-Systemen häufig vorkam.
Einordnung
Die Arbeit signalisiert klar, dass hochwertiges Face Swapping zu einem Problem der 3D-Videosynthese wird und nicht mehr nur ein Trick der 2D-Bildbearbeitung ist. Indem GSwap den Kopf als Teil eines vollständigen dynamischen Porträts behandelt, verbessert es Realismus genau dort, wo Nutzer am stärksten hinschauen: Bewegung, Struktur und Blending. Für alle, die Enterprise-taugliche Face-Swap-Technologie verfolgen, ist dies eine der wichtigsten Arbeiten im März 2026.