Autores e instituições
Jingtao Zhou
School of Mathematical Science, University of Science and Technology of China
Department of Computer Science, City University of Hong Kong
Xuan Gao
School of Mathematical Science, University of Science and Technology of China
Dongyu Liu
School of Mathematical Science, University of Science and Technology of China
Junhui Hou
Department of Computer Science, City University of Hong Kong
Yudong Guo
School of Mathematical Science, University of Science and Technology of China
Juyong Zhang
School of Mathematical Science, University of Science and Technology of China
Que problema resolve
O GSwap busca tornar o video head swapping mais realista ao ir além da geração 2D e das premissas superficiais de 3DMM.
Resultado-chave
Os autores relatam melhor qualidade visual, coerência temporal, preservação de identidade e consistência 3D do que métodos anteriores de head swapping, posicionando o GSwap como um forte sinal de que pipelines de swap com consciência 3D estão amadurecendo rapidamente.
Resumo
Apresentamos o GSwap, um novo sistema de troca de cabeças em vídeo, consistente e realista, habilitado por priors dinâmicos de retrato neural gaussiano, que avança significativamente o estado da arte em substituição de face e cabeça. Ao contrário de métodos anteriores que dependem principalmente de modelos generativos 2D ou de Modelos Faciais Morfáveis 3D (3DMM), nossa abordagem supera suas limitações inerentes, incluindo baixa consistência 3D, expressões faciais não naturais e qualidade de síntese restrita. Além disso, técnicas existentes têm dificuldade com tarefas completas de head-swapping devido à modelagem holística insuficiente da cabeça e à integração ineficaz com o fundo, frequentemente resultando em artefatos visíveis e desalinhamentos. Para enfrentar esses desafios, o GSwap introduz um campo intrínseco de características gaussianas 3D incorporado em uma superfície SMPL-X de corpo inteiro, elevando efetivamente vídeos de retrato 2D a um campo neural gaussiano dinâmico. Essa inovação garante renderização de retratos com alta fidelidade e consistência 3D, preservando relações naturais entre cabeça e tronco e dinâmicas de movimento contínuas. Para facilitar o treinamento, adaptamos um modelo generativo 2D de retratos pré-treinado ao domínio da cabeça de origem usando apenas algumas imagens de referência, permitindo adaptação de domínio eficiente. Além disso, propomos uma estratégia de neural re-rendering que integra harmoniosamente o primeiro plano sintetizado ao fundo original, eliminando artefatos de mistura e aumentando o realismo. Experimentos extensivos demonstram que o GSwap supera métodos existentes em múltiplos aspectos, incluindo qualidade visual, coerência temporal, preservação de identidade e consistência 3D.
Ponto de partida da pesquisa
O video face swapping evoluiu rapidamente, mas muitos sistemas ainda falham justamente nos detalhes que os usuários percebem primeiro: consistência 3D, movimento natural da cabeça e fusão sem emendas entre a cabeça trocada e o restante do corpo. Os autores partem das limitações de geradores 2D e de pipelines baseados em 3DMM, que frequentemente produzem artefatos quando a tarefa deixa de ser apenas substituição de rosto e passa a ser substituição completa de cabeça. A premissa é que um swapping realista em qualidade comercial agora depende de modelar um retrato dinâmico completo, e não apenas editar uma textura facial isolada.
Método
O GSwap introduz uma representação dinâmica de neural Gaussian portrait embutida em uma superfície corporal SMPL-X, permitindo modelar cabeça, tronco e movimento em conjunto, em vez de tratar o rosto como um patch 2D isolado. O sistema adapta um gerador de retratos pré-treinado à identidade de origem usando poucas referências e depois realiza neural re-rendering para que o primeiro plano sintetizado se integre de forma mais natural ao fundo original. Essa combinação foi desenhada para preservar a identidade, estabilizar o movimento temporal e evitar o aspecto solto ou desalinhado comum em sistemas de swapping anteriores.
Síntese do artigo
O artigo sinaliza com clareza que o face swapping de alto nível está se tornando um problema de síntese de vídeo 3D, e não apenas um truque de edição de imagem 2D. Ao tratar a cabeça como parte de um retrato dinâmico completo, o GSwap melhora o realismo exatamente nos pontos que mais importam para os usuários: movimento, estrutura e blending. Para quem acompanha tecnologia de face swap em nível empresarial, este é um dos artigos mais relevantes de março de 2026.