Interaction flexible, naturelle et efficace pour la génération de visages parlants conversationnels
Auteurs & institutions
Baiqin Wang
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Sen Chen
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Jiankuo Zhao
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Xiangyu Liu
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Zhen Lei
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
CAIR, HKISI, Chinese Academy of Sciences
School of Computer Science and Engineering, Faculty of Innovation Engineering, Macau University of Science and Technology
Xiangyu Zhu
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Problème traité
Il traite l’écart entre génération de parole seule et vraie conversation : participants arbitraires, sessions longues, feedback non verbal et faible latence.
Résultat clé
Les auteurs rapportent une meilleure qualité d’interaction tout en maintenant 30 FPS, seuil clé pour l’usage conversationnel en ligne.
Résumé
InterTalk vise des visages parlants conversationnels multi-participants et multi-tours. Il combine architecture motion-based, feedback, génération itérative, disentanglement facial, dataset multi-personnes et augmentation 3D pour 30 FPS.
Point de départ de la recherche
Les systèmes de visages parlants passent de clips à agents, tuteurs et avatars ; écoute et tour de parole comptent autant que le lip sync.
Méthode
Le cadre modélise la dynamique par participant, exploite les mouvements de feedback, affine itérativement et sépare lèvres, clignement et gestes de réponse.
À retenir
InterTalk pousse les talking heads vers les humains numériques interactifs. La question devient : tenir un échange crédible multi-rôles en temps réel.