← Volver al Blog
Radar de investigaciónIntercambio de rostrosarXivMarzo de 2026

Radar mensual de arXiv

Artículos sobre face swapping de marzo de 2026: head swap 3D, video de identidad con cualquier referencia y difusión facial

La investigación sobre face swapping de marzo de 2026 se expande a la vez en dos direcciones: intercambio más realista y consistente en 3D para video, y sistemas más amplios de generación con preservación de identidad capaces de convertir cualquier referencia en retratos o clips controlables. Para los equipos de producto, esto significa que la frontera técnica entre face swap, generación de avatares y síntesis facial controlable sigue reduciéndose.

Lo que señala este mes

La carrera por la calidad este mes ya no gira solo en torno a la transferencia de identidad en una sola toma. La coherencia temporal, la estructura 3D y la controlabilidad con múltiples referencias se están convirtiendo en los verdaderos diferenciadores.

Artículo 012026-03-24cs.CV

GSwap: head swapping realista con Dynamic Neural Gaussian Field

Autores e instituciones

Jingtao Zhou

School of Mathematical Science, University of Science and Technology of China

Department of Computer Science, City University of Hong Kong

Xuan Gao

School of Mathematical Science, University of Science and Technology of China

Dongyu Liu

School of Mathematical Science, University of Science and Technology of China

Junhui Hou

Department of Computer Science, City University of Hong Kong

Yudong Guo

School of Mathematical Science, University of Science and Technology of China

Juyong Zhang

School of Mathematical Science, University of Science and Technology of China

Qué problema resuelve

GSwap busca hacer más realista el video head swapping al ir más allá de la generación 2D y de los supuestos superficiales de 3DMM.

Resultado clave

Los autores informan mejor calidad visual, coherencia temporal, preservación de identidad y consistencia 3D que en métodos previos de head swapping, lo que posiciona a GSwap como una señal clara de que los pipelines de swap con conciencia 3D están madurando rápido.

Resumen

Presentamos GSwap, un novedoso sistema de head-swapping en video, consistente y realista, impulsado por dynamic neural Gaussian portrait priors, que avanza significativamente el state of the art en sustitución de rostros y cabezas. A diferencia de métodos anteriores que dependen principalmente de modelos generativos 2D o de 3D Morphable Face Models (3DMM), nuestro enfoque supera sus limitaciones inherentes, entre ellas la pobre consistencia 3D, las expresiones faciales poco naturales y la calidad de síntesis restringida. Además, las técnicas existentes tienen dificultades en tareas de head-swapping completo debido a una modelización holística insuficiente de la cabeza y a una integración ineficaz con el fondo, lo que a menudo produce artefactos visibles y desalineaciones. Para abordar estos retos, GSwap introduce un campo intrínseco de características Gaussian 3D incrustado dentro de una superficie corporal completa SMPL-X, elevando de forma efectiva videos de retrato 2D a un campo Gaussian neuronal dinámico. Esta innovación garantiza renderizado de retratos de alta fidelidad y consistente en 3D, al tiempo que preserva relaciones naturales cabeza-torso y dinámicas de movimiento fluidas. Para facilitar el entrenamiento, adaptamos un modelo generativo de retratos 2D preentrenado al dominio de la cabeza fuente utilizando solo unas pocas imágenes de referencia, lo que permite una adaptación de dominio eficiente. Además, proponemos una estrategia de neural re-rendering que integra armónicamente el primer plano sintetizado con el fondo original, eliminando artefactos de mezcla y mejorando el realismo. Amplios experimentos demuestran que GSwap supera a los métodos existentes en múltiples aspectos, incluyendo calidad visual, coherencia temporal, preservación de identidad y consistencia 3D.

Punto de partida

El video face swapping ha mejorado con rapidez, pero muchos sistemas aún fallan justo en los detalles que los usuarios notan primero: consistencia 3D, movimiento natural de la cabeza y mezcla fluida entre la cabeza sustituida y el resto del cuerpo. Los autores parten de las limitaciones de los generadores 2D y de los pipelines basados en 3DMM, que suelen producir artefactos cuando la tarea pasa del reemplazo de rostro al reemplazo completo de cabeza. Su premisa es que un swapping realista de calidad comercial ahora depende de modelar un retrato dinámico completo, no solo de editar una textura facial aislada.

Método

GSwap introduce una representación dinámica de neural Gaussian portrait incrustada en una superficie corporal SMPL-X, lo que permite modelar cabeza, torso y movimiento de forma conjunta en lugar de tratar el rostro como un parche 2D aislado. El sistema adapta un generador de retratos preentrenado a la identidad fuente usando pocas referencias y luego realiza neural re-rendering para que el primer plano sintetizado se integre de manera más natural con el fondo original. Esta combinación busca preservar la identidad, estabilizar el movimiento temporal y evitar el aspecto despegado o desalineado común en sistemas de swapping anteriores.

Conclusión del artículo

El artículo deja claro que el face swapping de alta gama se está convirtiendo en un problema de síntesis de video 3D más que en un truco de edición de imagen 2D. Al tratar la cabeza como parte de un retrato dinámico completo, GSwap mejora el realismo justo donde más importa para los usuarios: movimiento, estructura y mezcla. Para quienes siguen la tecnología de face swap de nivel empresarial, es uno de los trabajos más claros de marzo de 2026.

Artículo 022026-03-26cs.CV

AnyID: generación universal de video con preservación de identidad y ultra fidelidad a partir de cualquier referencia visual

Autores e instituciones

Jiahao Wang

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Hualian Sheng

Alibaba Cloud Computing

Sijia Cai

Alibaba Cloud Computing

Yuxiao Yang

Tsinghua University

Weizhan Zhang

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Caixia Yan

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Bing Deng

Alibaba Cloud Computing

Jieping Ye

Alibaba Cloud Computing

Qué problema resuelve

AnyID aborda la ambigüedad de la transferencia de identidad unificando referencias heterogéneas e introduciendo una referencia primaria que ancla la identidad generada.

Resultado clave

El artículo afirma una fidelidad de identidad ultra alta y una controlabilidad a nivel de atributo superior a la de baselines anteriores de generación de video con preservación de identidad.

Resumen

La generación de video con preservación de identidad ofrece herramientas poderosas para la expresión creativa, permitiendo a los usuarios personalizar videos con sus personajes favoritos. Sin embargo, los métodos predominantes suelen estar diseñados y optimizados para una única referencia de identidad. Esta suposición subyacente restringe la flexibilidad creativa al no acomodar adecuadamente formatos de entrada diversos del mundo real. Además, depender de una sola fuente constituye un escenario mal planteado, generando una configuración inherentemente ambigua que dificulta que el modelo reproduzca fielmente una identidad en contextos novedosos. Para abordar estos problemas, presentamos AnyID, un marco de generación de video con preservación de identidad de ultra fidelidad que incorpora dos contribuciones centrales. En primer lugar, introducimos una arquitectura omni-referenced escalable que unifica de manera efectiva entradas de identidad heterogéneas (por ejemplo, rostros, retratos y videos) en una representación cohesiva. En segundo lugar, proponemos un paradigma de generación primary-referenced, que designa una referencia como ancla canónica y utiliza un novedoso differential prompt para permitir una controlabilidad precisa a nivel de atributo. Realizamos el entrenamiento sobre un conjunto de datos a gran escala y cuidadosamente curado para garantizar robustez y alta fidelidad, y posteriormente llevamos a cabo una etapa final de fine-tuning mediante reinforcement learning. Este proceso aprovecha un conjunto de preferencias construido a partir de evaluaciones humanas, en las que los anotadores realizaron comparaciones por pares de videos según dos criterios clave: fidelidad de identidad y controlabilidad del prompt. Amplias evaluaciones validan que AnyID alcanza una fidelidad de identidad ultra alta, así como una controlabilidad superior a nivel de atributo en diferentes configuraciones de tarea.

Punto de partida

Muchos sistemas de video con preservación de identidad asumen que el usuario puede proporcionar una única imagen de referencia limpia y canónica, pero los productos reales rara vez funcionan así. Los usuarios suben mezclas de selfies, retratos, clips y recursos imperfectos, lo que vuelve mucho más difícil preservar la identidad y expone la ambigüedad del condicionamiento con una sola referencia. El artículo está motivado por la necesidad de un marco más flexible capaz de digerir evidencia de identidad heterogénea en lugar de fingir que una sola referencia siempre basta.

Método

AnyID introduce una arquitectura omni-referenced que fusiona rostros, retratos y videos en una representación unificada de identidad y luego designa una referencia primaria como ancla para la generación. Sobre esa base, añade un mecanismo de differential prompt para que los usuarios controlen atributos sin perder fidelidad de identidad, y utiliza fine-tuning basado en reinforcement learning sobre datos de preferencias humanas para mejorar tanto la fidelidad como la controlabilidad. En conjunto, el sistema está diseñado para convertir referencias desordenadas del mundo real en un pipeline de condicionamiento de identidad más estable y utilizable.

Conclusión del artículo

La verdadera importancia de AnyID no es solo una mejor preservación de identidad, sino una mejor suposición de producto. Acepta que los usuarios traerán múltiples referencias, señales en conflicto y pistas de identidad incompletas, y diseña el sistema de generación alrededor de ese desorden. Eso hace que el artículo sea muy relevante para la próxima generación de herramientas de face swap, avatar y medios personalizados.

Artículo 032026-03-30cs.CV

MMFace-DiT: un diffusion transformer de doble flujo para generación facial multimodal de alta fidelidad

Autores e instituciones

Bharath Krishnamurthy

University of North Texas, Denton, TX, USA

Ajita Rattani

University of North Texas, Denton, TX, USA

Qué problema resuelve

MMFace-DiT apunta a una generación facial multimodal de alta fidelidad con mejor coordinación entre prompts semánticos y estructura espacial, una capacidad que también beneficia flujos avanzados de face swapping.

Resultado clave

Los autores informan una mejora del 40% en fidelidad visual y alineación con el prompt frente a seis baselines previas de generación facial multimodal.

Resumen

Los modelos recientes de generación facial multimodal abordan las limitaciones de control espacial de los modelos de difusión text-to-image al complementar el condicionamiento basado en texto con priors espaciales como máscaras de segmentación, bocetos o edge maps. Esta fusión multimodal permite una síntesis controlable alineada tanto con la intención semántica de alto nivel como con la disposición estructural de bajo nivel. Sin embargo, la mayoría de los enfoques existentes suelen extender pipelines preentrenadas de text-to-image agregando módulos auxiliares de control o ensamblando redes unimodales separadas. Estos diseños ad hoc heredan restricciones arquitectónicas, duplican parámetros y con frecuencia fallan ante modalidades conflictivas o espacios latentes desajustados, lo que limita su capacidad para realizar una fusión sinérgica entre dominios semánticos y espaciales. Introducimos MMFace-DiT, un diffusion transformer unificado de doble flujo diseñado para síntesis facial multimodal sinérgica. Su principal novedad reside en un bloque transformer de doble flujo que procesa en paralelo tokens espaciales (máscara/boceto) y semánticos (texto), fusionándolos profundamente mediante un mecanismo compartido de Rotary Position-Embedded (RoPE) Attention. Este diseño evita la dominancia modal y garantiza una fuerte adhesión tanto a los priors textuales como estructurales, logrando una consistencia espacial-semántica sin precedentes para la generación facial controlable. Además, un novedoso Modality Embedder permite que un único modelo cohesivo se adapte dinámicamente a distintas condiciones espaciales sin necesidad de reentrenamiento. MMFace-DiT logra una mejora del 40% en fidelidad visual y alineación con el prompt frente a seis modelos state-of-the-art de generación facial multimodal, estableciendo un nuevo paradigma flexible para el modelado generativo controlable de extremo a extremo. El código y el conjunto de datos están disponibles en nuestra página del proyecto: https://vcbsl.github.io/MMFace-DiT/

Punto de partida

La generación facial multimodal se ha vuelto más controlable, pero muchos sistemas existentes todavía dependen de diseños improvisados que añaden máscaras, bocetos u otros controles sobre backbones de text-to-image. Esas combinaciones ad hoc suelen fallar cuando los prompts semánticos y las restricciones espaciales entran en conflicto, que es precisamente cuando los usuarios más necesitan que un sistema controlable se comporte bien. El artículo parte de la idea de que la generación facial multimodal necesita una arquitectura de fusión más nativa, no otra pila de módulos externos de control.

Método

MMFace-DiT usa un diffusion transformer de doble flujo que procesa en paralelo entradas semánticas y controles espaciales, y luego los fusiona mediante atención compartida en lugar de una integración tardía de tipo patchwork. También añade un modality embedder para que el mismo backbone pueda adaptarse a distintas condiciones espaciales, como máscaras o bocetos, sin reentrenar modelos especialistas separados. Esto convierte al método en un marco más unificado de síntesis facial y, potencialmente, en una base más sólida para futuros sistemas generativos orientados al swapping.

Conclusión del artículo

Este artículo importa porque la generación facial controlable se está convirtiendo en infraestructura base para face swapping, herramientas de avatares y edición de medios. MMFace-DiT sostiene que una mejor calidad de generación proviene de una mejor fusión multimodal, no solo de pipelines de difusión más grandes. Si esa afirmación sigue sosteniéndose, arquitecturas como esta podrían moldear la próxima generación de sistemas de edición facial de alta fidelidad.