Autores e instituciones
Jingtao Zhou
School of Mathematical Science, University of Science and Technology of China
Department of Computer Science, City University of Hong Kong
Xuan Gao
School of Mathematical Science, University of Science and Technology of China
Dongyu Liu
School of Mathematical Science, University of Science and Technology of China
Junhui Hou
Department of Computer Science, City University of Hong Kong
Yudong Guo
School of Mathematical Science, University of Science and Technology of China
Juyong Zhang
School of Mathematical Science, University of Science and Technology of China
Qué problema resuelve
GSwap busca hacer más realista el video head swapping al ir más allá de la generación 2D y de los supuestos superficiales de 3DMM.
Resultado clave
Los autores informan mejor calidad visual, coherencia temporal, preservación de identidad y consistencia 3D que en métodos previos de head swapping, lo que posiciona a GSwap como una señal clara de que los pipelines de swap con conciencia 3D están madurando rápido.
Resumen
Presentamos GSwap, un novedoso sistema de head-swapping en video, consistente y realista, impulsado por dynamic neural Gaussian portrait priors, que avanza significativamente el state of the art en sustitución de rostros y cabezas. A diferencia de métodos anteriores que dependen principalmente de modelos generativos 2D o de 3D Morphable Face Models (3DMM), nuestro enfoque supera sus limitaciones inherentes, entre ellas la pobre consistencia 3D, las expresiones faciales poco naturales y la calidad de síntesis restringida. Además, las técnicas existentes tienen dificultades en tareas de head-swapping completo debido a una modelización holística insuficiente de la cabeza y a una integración ineficaz con el fondo, lo que a menudo produce artefactos visibles y desalineaciones. Para abordar estos retos, GSwap introduce un campo intrínseco de características Gaussian 3D incrustado dentro de una superficie corporal completa SMPL-X, elevando de forma efectiva videos de retrato 2D a un campo Gaussian neuronal dinámico. Esta innovación garantiza renderizado de retratos de alta fidelidad y consistente en 3D, al tiempo que preserva relaciones naturales cabeza-torso y dinámicas de movimiento fluidas. Para facilitar el entrenamiento, adaptamos un modelo generativo de retratos 2D preentrenado al dominio de la cabeza fuente utilizando solo unas pocas imágenes de referencia, lo que permite una adaptación de dominio eficiente. Además, proponemos una estrategia de neural re-rendering que integra armónicamente el primer plano sintetizado con el fondo original, eliminando artefactos de mezcla y mejorando el realismo. Amplios experimentos demuestran que GSwap supera a los métodos existentes en múltiples aspectos, incluyendo calidad visual, coherencia temporal, preservación de identidad y consistencia 3D.
Punto de partida
El video face swapping ha mejorado con rapidez, pero muchos sistemas aún fallan justo en los detalles que los usuarios notan primero: consistencia 3D, movimiento natural de la cabeza y mezcla fluida entre la cabeza sustituida y el resto del cuerpo. Los autores parten de las limitaciones de los generadores 2D y de los pipelines basados en 3DMM, que suelen producir artefactos cuando la tarea pasa del reemplazo de rostro al reemplazo completo de cabeza. Su premisa es que un swapping realista de calidad comercial ahora depende de modelar un retrato dinámico completo, no solo de editar una textura facial aislada.
Método
GSwap introduce una representación dinámica de neural Gaussian portrait incrustada en una superficie corporal SMPL-X, lo que permite modelar cabeza, torso y movimiento de forma conjunta en lugar de tratar el rostro como un parche 2D aislado. El sistema adapta un generador de retratos preentrenado a la identidad fuente usando pocas referencias y luego realiza neural re-rendering para que el primer plano sintetizado se integre de manera más natural con el fondo original. Esta combinación busca preservar la identidad, estabilizar el movimiento temporal y evitar el aspecto despegado o desalineado común en sistemas de swapping anteriores.
Conclusión del artículo
El artículo deja claro que el face swapping de alta gama se está convirtiendo en un problema de síntesis de video 3D más que en un truco de edición de imagen 2D. Al tratar la cabeza como parte de un retrato dinámico completo, GSwap mejora el realismo justo donde más importa para los usuarios: movimiento, estructura y mezcla. Para quienes siguen la tecnología de face swap de nivel empresarial, es uno de los trabajos más claros de marzo de 2026.