Interacción flexible, natural y eficiente para generación conversacional de rostros parlantes
Autores e instituciones
Baiqin Wang
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Sen Chen
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Jiankuo Zhao
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Xiangyu Liu
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Zhen Lei
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
CAIR, HKISI, Chinese Academy of Sciences
School of Computer Science and Engineering, Faculty of Innovation Engineering, Macau University of Science and Technology
Xiangyu Zhu
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Qué problema resuelve
Aborda la brecha entre generación solo hablante y conversación real: participantes arbitrarios, sesiones largas, feedback no verbal y baja latencia.
Resultado clave
Reportan mejor calidad de interacción manteniendo 30 FPS, umbral clave para conversación online.
Resumen
InterTalk genera rostros parlantes conversacionales con varios participantes y múltiples turnos. Usa arquitectura basada en movimiento, feedback, generación iterativa, disentanglement facial, nuevo dataset y 3D augmentation para 30 FPS.
Punto de partida
Los sistemas de rostros parlantes pasan de clips a agentes, tutores y avatares; escuchar y tomar turnos importa tanto como lip sync.
Método
Modela dinámica por participante, usa movimiento de feedback de otros, refina iterativamente y separa componentes faciales para mejorar labios, parpadeo y gestos.
Conclusión del artículo
InterTalk lleva talking heads hacia humanos digitales interactivos. La pregunta cambia de sincronizar un clip a sostener intercambio creíble con varios roles en tiempo real.