著者・所属
Baiqin Wang
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Sen Chen
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Jiankuo Zhao
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Xiangyu Liu
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Zhen Lei
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
CAIR, HKISI, Chinese Academy of Sciences
School of Computer Science and Engineering, Faculty of Innovation Engineering, Macau University of Science and Technology
Xiangyu Zhu
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
何を解決するか
この論文はspeaking-only generationと実会話のgapを扱う。任意人数、長時間session、non-verbal feedback、低latencyを同時に満たす必要がある。
主要結果
著者はinteraction qualityの向上と30 FPS real-time生成の両立を報告し、これはonline conversation用途の重要な閾値である。
要旨
InterTalkは、複数参加者が何ラウンドも話し、聞き、反応する会話型talking-face生成を対象にする。motion-based architecture、参加者feedback、iterative generation、顔componentのdisentanglement、新しいmulti-person dataset、3D face augmentationにより30 FPS real-time生成を目指す。
研究の出発点
talking-face systemは単発clipから継続的agent、tutor、assistant、meeting avatarへ移っており、lip syncだけでなく聞く動作やturn-takingも重要になる。
手法
frameworkは参加者ごとの会話dynamicsをモデル化し、他の話者・聞き手のfeedback motionを使い、反復的にbehaviorを改善する。lip motion、eye blinking、response gestureを独立に改善できるよう顔componentを分離する。
論文要点
InterTalkはface-swapping/talking-head stackをinteractive digital humanへ広げる。実務上の問いは「clipをlip-syncできるか」から「複数roleの believable exchange をreal-time制約下で維持できるか」へ移る。