← Voltar ao Blog

Radar de pesquisaTroca de rostoarXivJunho de 2026

Radar mensal do arXiv

Face swapping em junho de 2026: talking faces conversacionais, retratos rápidos e proteção de privacidade

A pesquisa se divide entre talking faces mais interativos e defesa contra transferência de identidade não autorizada; velocidade, múltiplas pessoas e proteção dominam.

O que este mês sinaliza

O mês mostra síntese mais interativa e defesas mais específicas: movimento crível, baixa latência e guardrails.

Artigo 012026-06-30cs.CV

Interação flexível, natural e eficiente para geração conversacional de rostos falantes

Autores e instituições

Baiqin Wang

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Sen Chen

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Jiankuo Zhao

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Xiangyu Liu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Zhen Lei

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

CAIR, HKISI, Chinese Academy of Sciences

School of Computer Science and Engineering, Faculty of Innovation Engineering, Macau University of Science and Technology

Xiangyu Zhu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Que problema resolve

Trata a lacuna entre geração apenas falante e conversa real: participantes arbitrários, sessões longas, feedback não verbal e baixa latência.

Resultado-chave

Relatam melhor qualidade de interação mantendo 30 FPS, limiar importante para conversa online.

Resumo

InterTalk mira geração conversacional de rostos falantes com múltiplos participantes e turnos. Usa arquitetura baseada em movimento, feedback, geração iterativa, disentanglement facial, dataset e 3D augmentation para 30 FPS.

Ponto de partida da pesquisa

Sistemas de rostos falantes passam de clipes a agentes, tutores e avatares; escuta e turn-taking importam tanto quanto lip sync.

Método

Modela dinâmica por participante, usa feedback motion de outros, refina iterativamente e separa componentes faciais como lábios, piscar e gestos.

Síntese do artigo

InterTalk leva talking heads a humanos digitais interativos. A pergunta muda de sincronizar um clipe para sustentar troca crível multi-papéis em tempo real.

Artigo 022026-06-29cs.CV

SyncCache: dinâmicas assimétricas para animação de retrato guiada por áudio rápida

Autores e instituições

Juncheng Ma

Shenzhen Graduate School, Peking University, China

Yuxuan Du

Shenzhen Graduate School, Peking University, China

Yanan Sun

Shanghai AI Laboratory, China

Zhening Xing

Shanghai AI Laboratory, China

Changlin Li

Tencent Hunyuan, China

Zhenyu Tang

Shenzhen Graduate School, Peking University, China

Bo Li

vivo, China

Peng-Tao Jiang

vivo, China

Li Yuan

Shenzhen Graduate School, Peking University, China

Daquan Zhou

Shenzhen Graduate School, Peking University, China

Yonghong Tian

Shenzhen Graduate School, Peking University, China

Que problema resolve

Corrige o mismatch do caching genérico de difusão: premissas text-to-video não capturam desequilíbrio espacial e modal de faces guiadas por áudio.

Resultado-chave

Relata até 4,12x no HunyuanVideo-Avatar e 3,75x no Wan-S2V com fidelidade quase sem perda e alinhamento de áudio preciso.

Resumo

SyncCache acelera sem treino animação de retrato DiT guiada por áudio. Trata regiões humanas e movimento condicionado por áudio como mais dinâmicos que o fundo.

Ponto de partida da pesquisa

Modelos de difusão para retrato são poderosos mas lentos; avatares de produção precisam acelerar sem quebrar lip sync nem detalhes faciais.

Método

Combina Spatially-Asymmetric Probing, Modality-Decoupled Caching e seleção offline adaptativa à memória; recalcula partes sensíveis a áudio e cacheia residuais estáveis.

Síntese do artigo

SyncCache reduz custo de inferência sem retreinar o gerador. Para avatares: previews mais rápidos, menor custo cloud e geração interativa mais viável.

Artigo 032026-06-30cs.CV

Phantom: framework unificado de proteção contra deepfakes de troca de rosto com restrições latentes e espaciais

Autores e instituições

Jungkon Kim

Samsung Electronics, AI Platform Center

Cheolseung Jung

Samsung Electronics, AI Platform Center

Jong-Min Choi

Samsung Electronics, AI Platform Center

Juseong Lee

Samsung Electronics, AI Platform Center

Que problema resolve

Mira fraquezas anteriores: targets aleatórios criam direções latentes ambíguas e ruído sem restrição invade regiões irrelevantes.

Resultado-chave

No UniFace, INSwapper e SimSwap, melhora proteção dodging em 27,8%, 25,6% e 16,6%; impersonation sobe até 10,2% com melhor fidelidade.

Resumo

Phantom é proteção proativa contra face-swap deepfakes. Sintetiza targets com identidade deslocada e atributos preservados, restringindo perturbações a regiões faciais relevantes.

Ponto de partida da pesquisa

Detecção é reativa; pessoas e marcas precisam de controles que façam falhar face swap não autorizado antes do vídeo.

Método

Otimiza restrições latentes e espaciais: targets com atributos preservados definem direções identity-aware e perturbações mascaradas atuam só em regiões semânticas.

Síntese do artigo

Phantom trata face-swap como modelo de ameaça próprio. Para serviços de foto e proteção de marcas, restrição espacial importa para não danificar a imagem visivelmente.