← Retour au Blog
Radar de rechercheÉchange de visagesarXivMars 2026

Radar arXiv mensuel

Articles de face swapping de mars 2026 : head swap 3D, vidéo d'identité à référence libre et diffusion faciale

La recherche sur le face swapping en mars 2026 progresse simultanément dans deux directions : des échanges plus réalistes et cohérents en 3D pour la vidéo, et des systèmes plus généraux de génération préservant l'identité capables de transformer n'importe quelle référence en portraits ou clips contrôlables. Pour les équipes produit, cela signifie que la frontière technique entre face swap, génération d'avatars et synthèse faciale contrôlable continue de se réduire.

Ce que révèle ce mois-ci

La course à la qualité ce mois-ci ne porte plus seulement sur le transfert d'identité en une seule étape. La cohérence temporelle, la structure 3D et la contrôlabilité multi-référence deviennent les véritables facteurs de différenciation.

Article 012026-03-24cs.CV

GSwap : head swapping réaliste avec Dynamic Neural Gaussian Field

Auteurs & institutions

Jingtao Zhou

School of Mathematical Science, University of Science and Technology of China

Department of Computer Science, City University of Hong Kong

Xuan Gao

School of Mathematical Science, University of Science and Technology of China

Dongyu Liu

School of Mathematical Science, University of Science and Technology of China

Junhui Hou

Department of Computer Science, City University of Hong Kong

Yudong Guo

School of Mathematical Science, University of Science and Technology of China

Juyong Zhang

School of Mathematical Science, University of Science and Technology of China

Problème traité

GSwap vise à rendre le video head swapping plus réaliste en dépassant la génération 2D et les hypothèses superficielles des 3DMM.

Résultat clé

Les auteurs rapportent une meilleure qualité visuelle, une meilleure cohérence temporelle, une meilleure préservation de l'identité et une meilleure cohérence 3D que les méthodes précédentes de head swapping, ce qui montre que les pipelines de swap sensibles à la 3D mûrissent rapidement.

Résumé

Nous présentons GSwap, un nouveau système d'échange de têtes dans des vidéos, cohérent et réaliste, reposant sur des priors dynamiques de portrait Gaussian neural, qui fait progresser de manière significative l'état de l'art en remplacement de visage et de tête. Contrairement aux méthodes précédentes qui s'appuient principalement sur des modèles génératifs 2D ou sur des modèles faciaux morphables 3D (3DMM), notre approche surmonte leurs limitations intrinsèques, notamment une faible cohérence 3D, des expressions faciales peu naturelles et une qualité de synthèse restreinte. De plus, les techniques existantes peinent sur les tâches complètes de head-swapping en raison d'une modélisation holistique insuffisante de la tête et d'une fusion inefficace avec l'arrière-plan, ce qui entraîne souvent des artéfacts visibles et des désalignements. Pour relever ces défis, GSwap introduit un champ intrinsèque de caractéristiques gaussiennes 3D intégré dans une surface SMPL-X corps entier, élevant efficacement des vidéos de portrait 2D en un champ Gaussian neural dynamique. Cette innovation garantit un rendu de portrait à haute fidélité et cohérent en 3D, tout en préservant des relations naturelles entre tête et torse ainsi qu'une dynamique de mouvement fluide. Pour faciliter l'entraînement, nous adaptons au domaine de la tête source un modèle génératif 2D de portrait préentraîné à l'aide de quelques images de référence בלבד, ce qui permet une adaptation de domaine efficace. En outre, nous proposons une stratégie de neural re-rendering qui intègre harmonieusement le premier plan synthétisé à l'arrière-plan d'origine, éliminant les artéfacts de fusion et renforçant le réalisme. Des expériences approfondies montrent que GSwap surpasse les méthodes existantes sur plusieurs aspects, notamment la qualité visuelle, la cohérence temporelle, la préservation de l'identité et la cohérence 3D.

Point de départ de la recherche

Le video face swapping a progressé rapidement, mais de nombreux systèmes échouent encore précisément sur les détails que les utilisateurs remarquent d'abord : cohérence 3D, mouvement naturel de la tête et fusion sans couture entre la tête remplacée et le reste du corps. Les auteurs partent des limites des générateurs 2D et des pipelines fondés sur les 3DMM, qui produisent souvent des artéfacts dès que la tâche s'étend du remplacement de visage au remplacement complet de tête. Leur hypothèse est qu'un swapping réaliste de qualité commerciale dépend désormais de la modélisation d'un portrait dynamique complet plutôt que de la simple édition d'une texture faciale isolée.

Méthode

GSwap introduit une représentation dynamique de neural Gaussian portrait intégrée à une surface corporelle SMPL-X, ce qui permet de modéliser conjointement la tête, le torse et le mouvement au lieu de traiter le visage comme un simple patch 2D isolé. Le système adapte un générateur de portrait préentraîné à l'identité source à l'aide de quelques références, puis applique un neural re-rendering afin que le premier plan synthétisé s'intègre plus naturellement à l'arrière-plan d'origine. Cette combinaison vise à préserver l'identité, stabiliser le mouvement temporel et éviter l'effet détaché ou désaligné fréquent dans les anciens systèmes de swapping.

À retenir

L'article envoie un signal clair : le face swapping haut de gamme devient un problème de synthèse vidéo 3D plutôt qu'un simple truc d'édition d'image 2D. En traitant la tête comme une partie d'un portrait dynamique complet, GSwap améliore le réalisme là où les utilisateurs y sont le plus sensibles : le mouvement, la structure et la fusion. Pour toute équipe qui suit la technologie de face swap de niveau entreprise, c'est l'un des articles les plus importants de mars 2026.

Article 022026-03-26cs.CV

AnyID : génération vidéo universelle à ultra-haute fidélité avec préservation de l'identité à partir de toute référence visuelle

Auteurs & institutions

Jiahao Wang

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Hualian Sheng

Alibaba Cloud Computing

Sijia Cai

Alibaba Cloud Computing

Yuxiao Yang

Tsinghua University

Weizhan Zhang

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Caixia Yan

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Bing Deng

Alibaba Cloud Computing

Jieping Ye

Alibaba Cloud Computing

Problème traité

AnyID traite l'ambiguïté du transfert d'identité en unifiant des références hétérogènes et en introduisant une référence primaire qui ancre l'identité générée.

Résultat clé

L'article revendique une fidélité d'identité ultra élevée ainsi qu'une contrôlabilité au niveau des attributs plus forte que les baselines antérieures de génération vidéo préservant l'identité.

Résumé

La génération vidéo préservant l'identité offre des outils puissants pour l'expression créative, permettant aux utilisateurs de personnaliser des vidéos mettant en scène leurs personnages favoris. Cependant, les méthodes dominantes sont généralement conçues et optimisées pour une seule référence d'identité. Cette hypothèse sous-jacente limite la flexibilité créative en prenant insuffisamment en charge la diversité des formats d'entrée du monde réel. S'appuyer sur une seule source constitue également un problème mal posé, créant une situation intrinsèquement ambiguë qui rend difficile pour le modèle de reproduire fidèlement une identité dans de nouveaux contextes. Pour répondre à ces problèmes, nous présentons AnyID, un cadre de génération vidéo à préservation d'identité d'ultra-haute fidélité reposant sur deux contributions majeures. Premièrement, nous introduisons une architecture omni-référencée extensible qui unifie efficacement des entrées d'identité hétérogènes (par exemple, visages, portraits et vidéos) en une représentation cohérente. Deuxièmement, nous proposons un paradigme de génération à référence primaire, qui désigne une référence comme ancre canonique et utilise un nouveau prompt différentiel pour permettre un contrôle précis au niveau des attributs. Nous entraînons le modèle sur un jeu de données à grande échelle, soigneusement curé, afin d'assurer robustesse et haute fidélité, puis nous effectuons une étape finale de fine-tuning à l'aide de l'apprentissage par renforcement. Ce processus exploite un jeu de données de préférences construit à partir d'évaluations humaines, dans lequel des annotateurs ont réalisé des comparaisons par paires de vidéos selon deux critères clés : la fidélité à l'identité et la contrôlabilité du prompt. Des évaluations approfondies valident qu'AnyID atteint une fidélité d'identité extrêmement élevée ainsi qu'une contrôlabilité supérieure au niveau des attributs dans différents contextes de tâche.

Point de départ de la recherche

De nombreux systèmes de génération vidéo préservant l'identité supposent que l'utilisateur peut fournir une seule image de référence propre et canonique, mais les produits réels fonctionnent rarement ainsi. Les utilisateurs téléversent un mélange de selfies, de portraits, de clips et d'assets imparfaits, ce qui rend la préservation de l'identité beaucoup plus difficile et met en évidence l'ambiguïté du conditionnement à référence unique. L'article est motivé par le besoin d'un cadre plus flexible capable d'absorber des indices d'identité hétérogènes au lieu de supposer qu'une seule référence suffit toujours.

Méthode

AnyID introduit une architecture omni-referenced qui fusionne visages, portraits et vidéos dans une représentation unifiée de l'identité, puis désigne une référence primaire comme ancre pour la génération. Par-dessus, le système ajoute un mécanisme de differential prompt afin que les utilisateurs puissent contrôler les attributs sans perdre en fidélité d'identité, et s'appuie sur un fine-tuning fondé sur le reinforcement learning sur des données de préférences humaines pour améliorer à la fois la fidélité et la contrôlabilité. L'ensemble est conçu pour transformer des références réelles désordonnées en un pipeline de conditionnement d'identité plus stable et plus exploitable.

À retenir

L'importance réelle d'AnyID ne tient pas seulement à une meilleure préservation de l'identité, mais à une hypothèse produit plus juste. Le système part du principe que les utilisateurs apporteront plusieurs références, des signaux contradictoires et des indices d'identité incomplets, puis construit la génération autour de ce désordre. Cela rend l'article particulièrement pertinent pour la prochaine génération d'outils de face swap, d'avatars et de médias personnalisés.

Article 032026-03-30cs.CV

MMFace-DiT : un transformeur de diffusion à double flux pour la génération multimodale de visages à haute fidélité

Auteurs & institutions

Bharath Krishnamurthy

University of North Texas, Denton, TX, USA

Ajita Rattani

University of North Texas, Denton, TX, USA

Problème traité

MMFace-DiT vise une génération multimodale de visages à haute fidélité avec une meilleure coordination entre prompts sémantiques et structure spatiale, une capacité également utile pour des workflows avancés de face swapping.

Résultat clé

Les auteurs rapportent une amélioration de 40% en fidélité visuelle et en alignement au prompt par rapport à six baselines antérieures de génération faciale multimodale.

Résumé

Les récents modèles multimodaux de génération de visages répondent aux limites de contrôle spatial des modèles de diffusion texte-vers-image en enrichissant le conditionnement textuel par des a priori spatiaux tels que des masques de segmentation, des croquis ou des cartes de contours. Cette fusion multimodale permet une synthèse contrôlable alignée à la fois sur l'intention sémantique de haut niveau et sur la structure spatiale de bas niveau. Cependant, la plupart des approches existantes étendent généralement des pipelines texte-vers-image préentraînés en ajoutant des modules de contrôle auxiliaires ou en assemblant des réseaux unimodaux distincts. Ces conceptions ad hoc héritent de contraintes architecturales, dupliquent les paramètres et échouent souvent face à des modalités conflictuelles ou à des espaces latents mal appariés, ce qui limite leur capacité à réaliser une fusion synergique entre les domaines sémantique et spatial. Nous introduisons MMFace-DiT, un transformeur de diffusion à double flux unifié conçu pour une synthèse multimodale synergique de visages. Sa nouveauté centrale réside dans un bloc transformeur à double flux qui traite en parallèle les tokens spatiaux (masque/croquis) et sémantiques (texte), en les fusionnant en profondeur via un mécanisme d'attention Rotary Position-Embedded (RoPE) partagé. Cette conception empêche la domination d'une modalité et garantit une forte adhérence à la fois au texte et aux a priori structurels afin d'obtenir une cohérence spatio-sémantique sans précédent pour la génération contrôlable de visages. En outre, un nouveau Modality Embedder permet à un modèle unique et cohésif de s'adapter dynamiquement à des conditions spatiales variées sans réentraînement. MMFace-DiT obtient une amélioration de 40% en fidélité visuelle et en alignement au prompt par rapport à six modèles de pointe de génération multimodale de visages, établissant un nouveau paradigme flexible pour la modélisation générative contrôlable de bout en bout. Le code et le jeu de données sont disponibles sur notre page de projet : https://vcbsl.github.io/MMFace-DiT/

Point de départ de la recherche

La génération faciale multimodale est devenue plus contrôlable, mais beaucoup de systèmes existants reposent encore sur des conceptions bricolées qui greffent masques, croquis ou autres contrôles sur des backbones text-to-image. Ces combinaisons ad hoc échouent souvent lorsque les prompts sémantiques et les contraintes spatiales se contredisent, précisément là où les utilisateurs ont le plus besoin d'un système réellement contrôlable. L'article part de l'idée que la génération faciale multimodale nécessite une architecture de fusion plus native plutôt qu'une nouvelle accumulation de modules de contrôle externes.

Méthode

MMFace-DiT utilise un transformeur de diffusion à double flux qui traite en parallèle les entrées sémantiques et les contrôles spatiaux, puis les fusionne via une attention partagée plutôt qu'au moyen d'une intégration tardive de type patchwork. Il ajoute aussi un modality embedder pour que le même backbone puisse s'adapter à différentes conditions spatiales, comme les masques ou les croquis, sans réentraîner des modèles spécialistes séparés. Le résultat est un cadre de synthèse faciale plus unifié et potentiellement une base plus solide pour de futurs systèmes génératifs orientés swapping.

À retenir

Cet article est important parce que la génération faciale contrôlable devient une infrastructure de base pour le face swapping, les outils d'avatar et l'édition média. MMFace-DiT avance que la qualité de génération s'améliore grâce à une meilleure fusion multimodale, et pas seulement grâce à des pipelines de diffusion plus grands. Si cette idée continue de se vérifier, des architectures de ce type pourraient façonner la prochaine génération de systèmes d'édition faciale à haute fidélité.