Interação flexível, natural e eficiente para geração conversacional de rostos falantes
Autores e instituições
Baiqin Wang
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Sen Chen
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Jiankuo Zhao
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Xiangyu Liu
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Zhen Lei
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
CAIR, HKISI, Chinese Academy of Sciences
School of Computer Science and Engineering, Faculty of Innovation Engineering, Macau University of Science and Technology
Xiangyu Zhu
MAIS, Institute of Automation, Chinese Academy of Sciences
School of Artificial Intelligence, University of Chinese Academy of Sciences
Que problema resolve
Trata a lacuna entre geração apenas falante e conversa real: participantes arbitrários, sessões longas, feedback não verbal e baixa latência.
Resultado-chave
Relatam melhor qualidade de interação mantendo 30 FPS, limiar importante para conversa online.
Resumo
InterTalk mira geração conversacional de rostos falantes com múltiplos participantes e turnos. Usa arquitetura baseada em movimento, feedback, geração iterativa, disentanglement facial, dataset e 3D augmentation para 30 FPS.
Ponto de partida da pesquisa
Sistemas de rostos falantes passam de clipes a agentes, tutores e avatares; escuta e turn-taking importam tanto quanto lip sync.
Método
Modela dinâmica por participante, usa feedback motion de outros, refina iterativamente e separa componentes faciais como lábios, piscar e gestos.
Síntese do artigo
InterTalk leva talking heads a humanos digitais interativos. A pergunta muda de sincronizar um clipe para sustentar troca crível multi-papéis em tempo real.