Flexible, natürliche und effiziente Interaktion für conversational Talking-Face-Generierung
Autoren & Institutionen
Baiqin Wang
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Sen Chen
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Jiankuo Zhao
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Xiangyu Liu
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Zhen Lei
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
CAIR, HKISI, Chinese Academy of Sciences
School of Computer Science and Engineering, Faculty of Innovation Engineering, Macau University of Science and Technology
Xiangyu Zhu
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Welches Problem es löst
Die Arbeit schließt die Lücke zwischen Speaking-only-Generierung und echter Konversation mit variabler Teilnehmerzahl, langen Sessions, nonverbalem Feedback und niedriger Latenz.
Zentrales Ergebnis
Die Autoren berichten bessere Interaktionsqualität bei 30 FPS Echtzeitgenerierung, einem wichtigen Schwellenwert für Online-Konversation.
Abstract
InterTalk adressiert conversational Talking-Face-Generierung mit mehreren Teilnehmern über viele Dialogrunden. Motion-basierte Architektur, Feedback, iterative Generierung, disentangle facial components, Dataset und 3D-Augmentation ermöglichen 30 FPS.
Ausgangspunkt der Forschung
Talking-Face-Systeme entwickeln sich von Einzelclips zu Agenten, Tutoren, Assistenten und Meeting-Avataren; Zuhören und Turn-Taking zählen neben Lip Sync.
Methode
Das Framework modelliert Gesprächsdynamik pro Teilnehmer, nutzt Feedback-Bewegungen anderer Sprecher/Hörer, verfeinert iterativ und trennt Gesichtskomponenten wie Lippen, Blinzeln und Reaktionen.
Einordnung
InterTalk erweitert Face-Swapping/Talking-Head-Technik in Richtung interaktiver Digital Humans. Die Frage wird, ob glaubwürdige Mehrrollen-Interaktion in Echtzeit möglich ist.