저자 및 소속
Baiqin Wang
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Sen Chen
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Jiankuo Zhao
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Xiangyu Liu
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Zhen Lei
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
CAIR, HKISI, Chinese Academy of Sciences
School of Computer Science and Engineering, Faculty of Innovation Engineering, Macau University of Science and Technology
Xiangyu Zhu
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
해결하는 문제
말하기만 하는 생성과 실제 대화 사이의 간극을 다룬다. 임의 참가자 수, 긴 세션, 비언어 피드백, 낮은 지연이 함께 필요하다.
핵심 결과
저자들은 30 FPS 실시간 생성을 유지하며 상호작용 품질을 높였다고 보고한다. 온라인 대화에 중요한 기준이다.
초록
InterTalk는 여러 참가자가 여러 턴 동안 말하고 듣고 반응하는 대화형 talking-face 생성을 목표로 한다. motion 기반 구조, feedback, iterative generation, facial disentanglement, 새 데이터셋, 3D 증강으로 30 FPS를 달성한다.
연구 출발점
talking-face 시스템은 단일 클립에서 지속형 에이전트, 튜터, 회의 아바타로 이동 중이며, 듣기 행동과 턴 전환이 lip sync만큼 중요하다.
방법
프레임워크는 참가자별 대화 동역학을 모델링하고 다른 화자/청자의 feedback motion을 사용하며, lip motion, eye blinking, response gesture를 분리해 개선한다.
논문 요약
InterTalk는 face-swapping/talking-head 스택을 상호작용형 디지털 휴먼으로 확장한다. 질문은 클립 lip-sync에서 실시간 다역할 대화를 유지할 수 있느냐로 바뀐다.