Auteurs & institutions
Jingtao Zhou
School of Mathematical Science, University of Science and Technology of China
Department of Computer Science, City University of Hong Kong
Xuan Gao
School of Mathematical Science, University of Science and Technology of China
Dongyu Liu
School of Mathematical Science, University of Science and Technology of China
Junhui Hou
Department of Computer Science, City University of Hong Kong
Yudong Guo
School of Mathematical Science, University of Science and Technology of China
Juyong Zhang
School of Mathematical Science, University of Science and Technology of China
Problème traité
GSwap vise à rendre le video head swapping plus réaliste en dépassant la génération 2D et les hypothèses superficielles des 3DMM.
Résultat clé
Les auteurs rapportent une meilleure qualité visuelle, une meilleure cohérence temporelle, une meilleure préservation de l'identité et une meilleure cohérence 3D que les méthodes précédentes de head swapping, ce qui montre que les pipelines de swap sensibles à la 3D mûrissent rapidement.
Résumé
Nous présentons GSwap, un nouveau système d'échange de têtes dans des vidéos, cohérent et réaliste, reposant sur des priors dynamiques de portrait Gaussian neural, qui fait progresser de manière significative l'état de l'art en remplacement de visage et de tête. Contrairement aux méthodes précédentes qui s'appuient principalement sur des modèles génératifs 2D ou sur des modèles faciaux morphables 3D (3DMM), notre approche surmonte leurs limitations intrinsèques, notamment une faible cohérence 3D, des expressions faciales peu naturelles et une qualité de synthèse restreinte. De plus, les techniques existantes peinent sur les tâches complètes de head-swapping en raison d'une modélisation holistique insuffisante de la tête et d'une fusion inefficace avec l'arrière-plan, ce qui entraîne souvent des artéfacts visibles et des désalignements. Pour relever ces défis, GSwap introduit un champ intrinsèque de caractéristiques gaussiennes 3D intégré dans une surface SMPL-X corps entier, élevant efficacement des vidéos de portrait 2D en un champ Gaussian neural dynamique. Cette innovation garantit un rendu de portrait à haute fidélité et cohérent en 3D, tout en préservant des relations naturelles entre tête et torse ainsi qu'une dynamique de mouvement fluide. Pour faciliter l'entraînement, nous adaptons au domaine de la tête source un modèle génératif 2D de portrait préentraîné à l'aide de quelques images de référence בלבד, ce qui permet une adaptation de domaine efficace. En outre, nous proposons une stratégie de neural re-rendering qui intègre harmonieusement le premier plan synthétisé à l'arrière-plan d'origine, éliminant les artéfacts de fusion et renforçant le réalisme. Des expériences approfondies montrent que GSwap surpasse les méthodes existantes sur plusieurs aspects, notamment la qualité visuelle, la cohérence temporelle, la préservation de l'identité et la cohérence 3D.
Point de départ de la recherche
Le video face swapping a progressé rapidement, mais de nombreux systèmes échouent encore précisément sur les détails que les utilisateurs remarquent d'abord : cohérence 3D, mouvement naturel de la tête et fusion sans couture entre la tête remplacée et le reste du corps. Les auteurs partent des limites des générateurs 2D et des pipelines fondés sur les 3DMM, qui produisent souvent des artéfacts dès que la tâche s'étend du remplacement de visage au remplacement complet de tête. Leur hypothèse est qu'un swapping réaliste de qualité commerciale dépend désormais de la modélisation d'un portrait dynamique complet plutôt que de la simple édition d'une texture faciale isolée.
Méthode
GSwap introduit une représentation dynamique de neural Gaussian portrait intégrée à une surface corporelle SMPL-X, ce qui permet de modéliser conjointement la tête, le torse et le mouvement au lieu de traiter le visage comme un simple patch 2D isolé. Le système adapte un générateur de portrait préentraîné à l'identité source à l'aide de quelques références, puis applique un neural re-rendering afin que le premier plan synthétisé s'intègre plus naturellement à l'arrière-plan d'origine. Cette combinaison vise à préserver l'identité, stabiliser le mouvement temporel et éviter l'effet détaché ou désaligné fréquent dans les anciens systèmes de swapping.
À retenir
L'article envoie un signal clair : le face swapping haut de gamme devient un problème de synthèse vidéo 3D plutôt qu'un simple truc d'édition d'image 2D. En traitant la tête comme une partie d'un portrait dynamique complet, GSwap améliore le réalisme là où les utilisateurs y sont le plus sensibles : le mouvement, la structure et la fusion. Pour toute équipe qui suit la technologie de face swap de niveau entreprise, c'est l'un des articles les plus importants de mars 2026.