← Voltar ao Blog
Radar de pesquisaTroca de rostosarXivMarço de 2026

Radar mensal do arXiv

Artigos de face swapping de março de 2026: head swap 3D, vídeo de identidade com qualquer referência e difusão facial

A pesquisa em face swapping de março de 2026 avança em duas direções ao mesmo tempo: trocas mais realistas e consistentes em 3D para vídeo, e sistemas mais amplos de geração com preservação de identidade capazes de transformar qualquer referência em retratos ou clipes controláveis. Para equipes de produto, isso significa que a fronteira técnica entre face swap, geração de avatares e síntese facial controlável continua encolhendo.

O que este mês sinaliza

A disputa por qualidade neste mês não gira mais apenas em torno da transferência de identidade em um único passo. Coerência temporal, estrutura 3D e controlabilidade com múltiplas referências estão se tornando os verdadeiros diferenciais.

Artigo 012026-03-24cs.CV

GSwap: head swapping realista com Dynamic Neural Gaussian Field

Autores e instituições

Jingtao Zhou

School of Mathematical Science, University of Science and Technology of China

Department of Computer Science, City University of Hong Kong

Xuan Gao

School of Mathematical Science, University of Science and Technology of China

Dongyu Liu

School of Mathematical Science, University of Science and Technology of China

Junhui Hou

Department of Computer Science, City University of Hong Kong

Yudong Guo

School of Mathematical Science, University of Science and Technology of China

Juyong Zhang

School of Mathematical Science, University of Science and Technology of China

Que problema resolve

O GSwap busca tornar o video head swapping mais realista ao ir além da geração 2D e das premissas superficiais de 3DMM.

Resultado-chave

Os autores relatam melhor qualidade visual, coerência temporal, preservação de identidade e consistência 3D do que métodos anteriores de head swapping, posicionando o GSwap como um forte sinal de que pipelines de swap com consciência 3D estão amadurecendo rapidamente.

Resumo

Apresentamos o GSwap, um novo sistema de troca de cabeças em vídeo, consistente e realista, habilitado por priors dinâmicos de retrato neural gaussiano, que avança significativamente o estado da arte em substituição de face e cabeça. Ao contrário de métodos anteriores que dependem principalmente de modelos generativos 2D ou de Modelos Faciais Morfáveis 3D (3DMM), nossa abordagem supera suas limitações inerentes, incluindo baixa consistência 3D, expressões faciais não naturais e qualidade de síntese restrita. Além disso, técnicas existentes têm dificuldade com tarefas completas de head-swapping devido à modelagem holística insuficiente da cabeça e à integração ineficaz com o fundo, frequentemente resultando em artefatos visíveis e desalinhamentos. Para enfrentar esses desafios, o GSwap introduz um campo intrínseco de características gaussianas 3D incorporado em uma superfície SMPL-X de corpo inteiro, elevando efetivamente vídeos de retrato 2D a um campo neural gaussiano dinâmico. Essa inovação garante renderização de retratos com alta fidelidade e consistência 3D, preservando relações naturais entre cabeça e tronco e dinâmicas de movimento contínuas. Para facilitar o treinamento, adaptamos um modelo generativo 2D de retratos pré-treinado ao domínio da cabeça de origem usando apenas algumas imagens de referência, permitindo adaptação de domínio eficiente. Além disso, propomos uma estratégia de neural re-rendering que integra harmoniosamente o primeiro plano sintetizado ao fundo original, eliminando artefatos de mistura e aumentando o realismo. Experimentos extensivos demonstram que o GSwap supera métodos existentes em múltiplos aspectos, incluindo qualidade visual, coerência temporal, preservação de identidade e consistência 3D.

Ponto de partida da pesquisa

O video face swapping evoluiu rapidamente, mas muitos sistemas ainda falham justamente nos detalhes que os usuários percebem primeiro: consistência 3D, movimento natural da cabeça e fusão sem emendas entre a cabeça trocada e o restante do corpo. Os autores partem das limitações de geradores 2D e de pipelines baseados em 3DMM, que frequentemente produzem artefatos quando a tarefa deixa de ser apenas substituição de rosto e passa a ser substituição completa de cabeça. A premissa é que um swapping realista em qualidade comercial agora depende de modelar um retrato dinâmico completo, e não apenas editar uma textura facial isolada.

Método

O GSwap introduz uma representação dinâmica de neural Gaussian portrait embutida em uma superfície corporal SMPL-X, permitindo modelar cabeça, tronco e movimento em conjunto, em vez de tratar o rosto como um patch 2D isolado. O sistema adapta um gerador de retratos pré-treinado à identidade de origem usando poucas referências e depois realiza neural re-rendering para que o primeiro plano sintetizado se integre de forma mais natural ao fundo original. Essa combinação foi desenhada para preservar a identidade, estabilizar o movimento temporal e evitar o aspecto solto ou desalinhado comum em sistemas de swapping anteriores.

Síntese do artigo

O artigo sinaliza com clareza que o face swapping de alto nível está se tornando um problema de síntese de vídeo 3D, e não apenas um truque de edição de imagem 2D. Ao tratar a cabeça como parte de um retrato dinâmico completo, o GSwap melhora o realismo exatamente nos pontos que mais importam para os usuários: movimento, estrutura e blending. Para quem acompanha tecnologia de face swap em nível empresarial, este é um dos artigos mais relevantes de março de 2026.

Artigo 022026-03-26cs.CV

AnyID: geração universal de vídeo com preservação de identidade e ultra fidelidade a partir de quaisquer referências visuais

Autores e instituições

Jiahao Wang

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Hualian Sheng

Alibaba Cloud Computing

Sijia Cai

Alibaba Cloud Computing

Yuxiao Yang

Tsinghua University

Weizhan Zhang

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Caixia Yan

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Bing Deng

Alibaba Cloud Computing

Jieping Ye

Alibaba Cloud Computing

Que problema resolve

O AnyID enfrenta a ambiguidade da transferência de identidade ao unificar referências heterogêneas e introduzir uma referência primária que ancora a identidade gerada.

Resultado-chave

O artigo afirma alcançar fidelidade de identidade ultra-alta e controlabilidade em nível de atributo mais forte do que baselines anteriores de geração de vídeo com preservação de identidade.

Resumo

A geração de vídeo com preservação de identidade oferece ferramentas poderosas para a expressão criativa, permitindo que os usuários personalizem vídeos com seus personagens favoritos. No entanto, os métodos predominantes normalmente são projetados e otimizados para uma única referência de identidade. Essa suposição subjacente restringe a flexibilidade criativa por acomodar de forma inadequada os diversos formatos de entrada do mundo real. Depender de uma única fonte também constitui um problema mal posto, gerando um cenário inerentemente ambíguo que dificulta ao modelo reproduzir fielmente uma identidade em novos contextos. Para enfrentar essas questões, apresentamos o AnyID, um framework de geração de vídeo com preservação de identidade de ultra-alta fidelidade que traz duas contribuições centrais. Primeiro, introduzimos uma arquitetura omni-referenciada escalável que unifica efetivamente entradas de identidade heterogêneas (por exemplo, rostos, retratos e vídeos) em uma representação coesa. Segundo, propomos um paradigma de geração com referência primária, que designa uma referência como âncora canônica e usa um novo prompt diferencial para permitir controlabilidade precisa em nível de atributo. Realizamos o treinamento em um conjunto de dados de larga escala, cuidadosamente curado, para garantir robustez e alta fidelidade, e em seguida executamos uma etapa final de fine-tuning com aprendizado por reforço. Esse processo aproveita um conjunto de dados de preferências construído a partir de avaliações humanas, nas quais anotadores realizaram comparações pareadas de vídeos com base em dois critérios-chave: fidelidade de identidade e controlabilidade do prompt. Avaliações extensivas validam que o AnyID alcança fidelidade de identidade ultra-alta, bem como controlabilidade superior em nível de atributo em diferentes configurações de tarefa.

Ponto de partida da pesquisa

Muitos sistemas de vídeo com preservação de identidade assumem que o usuário pode fornecer uma única imagem de referência limpa e canônica, mas produtos reais raramente funcionam assim. Os usuários enviam uma mistura de selfies, retratos, clipes e ativos imperfeitos, o que torna a preservação de identidade muito mais difícil e expõe a ambiguidade do condicionamento por referência única. O artigo é motivado pela necessidade de um framework mais flexível que consiga absorver evidências heterogêneas de identidade em vez de assumir que uma única referência sempre é suficiente.

Método

O AnyID introduz uma arquitetura omni-referenced que reúne faces, retratos e vídeos em uma representação unificada de identidade e, em seguida, define uma referência primária como âncora da geração. Sobre isso, adiciona um mecanismo de differential prompt para que os usuários controlem atributos sem perder fidelidade de identidade, e usa fine-tuning baseado em reinforcement learning sobre dados de preferência humana para refinar tanto a fidelidade quanto a controlabilidade. No conjunto, o sistema foi construído para transformar referências confusas do mundo real em um pipeline de condicionamento de identidade mais estável e utilizável.

Síntese do artigo

A verdadeira importância do AnyID não está apenas em preservar melhor a identidade, mas em assumir um cenário de produto mais realista. Ele aceita que os usuários trarão múltiplas referências, sinais conflitantes e pistas incompletas de identidade, e projeta o sistema de geração em torno dessa bagunça. Isso torna o artigo altamente relevante para a próxima geração de ferramentas de face swap, avatar e mídia personalizada.

Artigo 032026-03-30cs.CV

MMFace-DiT: um diffusion transformer de fluxo duplo para geração multimodal de rostos de alta fidelidade

Autores e instituições

Bharath Krishnamurthy

University of North Texas, Denton, TX, USA

Ajita Rattani

University of North Texas, Denton, TX, USA

Que problema resolve

O MMFace-DiT mira uma geração multimodal de rostos de alta fidelidade, com melhor coordenação entre prompts semânticos e estrutura espacial, capacidade que também beneficia fluxos avançados de face swapping.

Resultado-chave

Os autores relatam uma melhora de 40% em fidelidade visual e alinhamento ao prompt em comparação com seis baselines anteriores de geração multimodal de rostos.

Resumo

Modelos recentes de geração multimodal de rostos tratam das limitações de controle espacial dos modelos de difusão texto-para-imagem ao complementar o condicionamento textual com priors espaciais, como máscaras de segmentação, esboços ou mapas de borda. Essa fusão multimodal permite uma síntese controlável alinhada tanto à intenção semântica de alto nível quanto ao layout estrutural de baixo nível. No entanto, a maioria das abordagens existentes normalmente estende pipelines texto-para-imagem pré-treinados acrescentando módulos auxiliares de controle ou costurando redes unimodais separadas. Esses projetos ad hoc herdam restrições arquiteturais, duplicam parâmetros e frequentemente falham sob modalidades conflitantes ou espaços latentes incompatíveis, limitando sua capacidade de realizar fusão sinérgica entre os domínios semântico e espacial. Apresentamos o MMFace-DiT, um diffusion transformer unificado de duplo fluxo projetado para síntese multimodal sinérgica de rostos. Sua principal novidade está em um bloco transformer de duplo fluxo que processa em paralelo tokens espaciais (máscara/esboço) e semânticos (texto), fundindo-os profundamente por meio de um mecanismo compartilhado de atenção Rotary Position-Embedded (RoPE). Esse desenho evita a dominância modal e assegura forte aderência tanto ao texto quanto aos priors estruturais, alcançando uma consistência espaço-semântica sem precedentes para geração controlável de rostos. Além disso, um novo Modality Embedder permite que um único modelo coeso se adapte dinamicamente a condições espaciais variadas sem necessidade de retreinamento. O MMFace-DiT alcança uma melhoria de 40% em fidelidade visual e alinhamento ao prompt em relação a seis modelos multimodais de geração de rostos state-of-the-art, estabelecendo um novo paradigma flexível para modelagem generativa controlável de ponta a ponta. O código e o conjunto de dados estão disponíveis em nossa página do projeto: https://vcbsl.github.io/MMFace-DiT/

Ponto de partida da pesquisa

A geração multimodal de rostos se tornou mais controlável, mas muitos sistemas existentes ainda dependem de projetos improvisados que acoplam máscaras, sketches ou outros controles a backbones text-to-image. Essas combinações ad hoc costumam falhar quando prompts semânticos e restrições espaciais entram em conflito, justamente quando os usuários mais precisam que um sistema controlável se comporte bem. O artigo parte da ideia de que a geração multimodal de rostos precisa de uma arquitetura de fusão mais nativa, e não apenas de mais uma pilha de módulos externos de controle.

Método

O MMFace-DiT usa um diffusion transformer de duplo fluxo que processa entradas semânticas e controles espaciais em paralelo e depois os funde por atenção compartilhada, em vez de uma integração tardia do tipo patchwork. Ele também adiciona um modality embedder para que o mesmo backbone se adapte a diferentes condições espaciais, como máscaras ou sketches, sem retreinar modelos especialistas separados. Isso torna o método um framework mais unificado de síntese facial e potencialmente uma base mais forte para futuros sistemas generativos orientados a swapping.

Síntese do artigo

Este artigo importa porque a geração controlável de rostos está se tornando infraestrutura fundamental para face swapping, ferramentas de avatar e edição de mídia. O MMFace-DiT argumenta que melhor qualidade de geração vem de melhor fusão multimodal, e não apenas de pipelines de difusão maiores. Se essa ideia continuar se sustentando, arquiteturas como essa poderão moldar a próxima geração de sistemas de edição facial de alta fidelidade.