← Volver al Blog

Radar de investigaciónIntercambio facialarXivJunio de 2026

Radar mensual de arXiv

Face swapping en junio de 2026: rostros conversacionales, retratos rápidos y protección de privacidad

La investigación se divide entre talking faces más interactivos y defensas contra transferencia de identidad no autorizada; importan velocidad, múltiples personas y protección.

Lo que señala este mes

El mes muestra síntesis más interactiva y defensas específicas de amenaza: movimiento creíble, baja latencia y guardrails.

Artículo 012026-06-30cs.CV

Interacción flexible, natural y eficiente para generación conversacional de rostros parlantes

Autores e instituciones

Baiqin Wang

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Sen Chen

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Jiankuo Zhao

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Xiangyu Liu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Zhen Lei

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

CAIR, HKISI, Chinese Academy of Sciences

School of Computer Science and Engineering, Faculty of Innovation Engineering, Macau University of Science and Technology

Xiangyu Zhu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Qué problema resuelve

Aborda la brecha entre generación solo hablante y conversación real: participantes arbitrarios, sesiones largas, feedback no verbal y baja latencia.

Resultado clave

Reportan mejor calidad de interacción manteniendo 30 FPS, umbral clave para conversación online.

Resumen

InterTalk genera rostros parlantes conversacionales con varios participantes y múltiples turnos. Usa arquitectura basada en movimiento, feedback, generación iterativa, disentanglement facial, nuevo dataset y 3D augmentation para 30 FPS.

Punto de partida

Los sistemas de rostros parlantes pasan de clips a agentes, tutores y avatares; escuchar y tomar turnos importa tanto como lip sync.

Método

Modela dinámica por participante, usa movimiento de feedback de otros, refina iterativamente y separa componentes faciales para mejorar labios, parpadeo y gestos.

Conclusión del artículo

InterTalk lleva talking heads hacia humanos digitales interactivos. La pregunta cambia de sincronizar un clip a sostener intercambio creíble con varios roles en tiempo real.

Artículo 022026-06-29cs.CV

SyncCache: dinámicas asimétricas para animación de retratos guiada por audio rápida

Autores e instituciones

Juncheng Ma

Shenzhen Graduate School, Peking University, China

Yuxuan Du

Shenzhen Graduate School, Peking University, China

Yanan Sun

Shanghai AI Laboratory, China

Zhening Xing

Shanghai AI Laboratory, China

Changlin Li

Tencent Hunyuan, China

Zhenyu Tang

Shenzhen Graduate School, Peking University, China

Bo Li

vivo, China

Peng-Tao Jiang

vivo, China

Li Yuan

Shenzhen Graduate School, Peking University, China

Daquan Zhou

Shenzhen Graduate School, Peking University, China

Yonghong Tian

Shenzhen Graduate School, Peking University, China

Qué problema resuelve

Corrige el desajuste del caching genérico de difusión: supuestos text-to-video no capturan desequilibrios espaciales y modales de caras guiadas por audio.

Resultado clave

Reporta hasta 4,12x en HunyuanVideo-Avatar y 3,75x en Wan-S2V con fidelidad casi sin pérdida y alineación de audio precisa.

Resumen

SyncCache acelera sin entrenamiento la animación de retratos DiT guiada por audio. Trata regiones humanas y movimiento condicionado por audio como más dinámicos que el fondo.

Punto de partida

Los modelos de difusión para retratos son potentes pero lentos; avatares de producción necesitan acelerar sin romper lip sync ni detalle facial.

Método

Combina Spatially-Asymmetric Probing, Modality-Decoupled Caching y selección offline adaptada a memoria; recalcula partes sensibles al audio y cachea residuales estables.

Conclusión del artículo

SyncCache reduce coste de inferencia sin reentrenar. En productos avatar implica previews más rápidos, menor coste cloud y generación interactiva más viable.

Artículo 032026-06-30cs.CV

Phantom: marco unificado de protección contra deepfakes de intercambio facial con restricciones latentes y espaciales

Autores e instituciones

Jungkon Kim

Samsung Electronics, AI Platform Center

Cheolseung Jung

Samsung Electronics, AI Platform Center

Jong-Min Choi

Samsung Electronics, AI Platform Center

Juseong Lee

Samsung Electronics, AI Platform Center

Qué problema resuelve

Ataca debilidades previas: targets aleatorios dan direcciones latentes ambiguas y ruido no restringido invade regiones irrelevantes.

Resultado clave

En UniFace, INSwapper y SimSwap mejora protección dodging 27,8%, 25,6% y 16,6%; impersonation sube hasta 10,2% con mejor fidelidad perceptual.

Resumen

Phantom protege proactivamente contra face-swap deepfakes. Genera targets con identidad desplazada y atributos preservados, y restringe perturbaciones a regiones faciales relevantes.

Punto de partida

La detección es reactiva; personas y marcas necesitan controles que hagan fallar el face swap no autorizado antes de crear el video.

Método

Optimiza restricciones latentes y espaciales: targets que preservan atributos definen direcciones identity-aware y perturbaciones enmascaradas se aplican solo a regiones semánticas clave.

Conclusión del artículo

Phantom trata face-swap como amenaza propia, no como simple ataque de reconocimiento facial. Para fotos de consumo y protección de marcas, la restricción espacial evita dañar visiblemente la imagen.