MMTalker : synthèse 3D multirésolution de tête parlante avec fusion de caractéristiques multimodales
Auteurs & institutions
Bin Liu
School of Communication and Information Engineering, Shanghai University, Shanghai, China
Zhixiang Xiong
Department of Electrical and Computer Engineering, Texas A&M University, College Station, TX, USA
Zhifen He
School of Communication and Information Engineering, Shanghai University, Shanghai, China
Bo Li
School of Communication and Information Engineering, Shanghai University, Shanghai, China
Problème traité
Le problème central est de traiter les blocages liés à talking head synthesis, 3d facial animation, multimodal face generation dans face swapping et reenactment facial, afin que la solution soit évaluable par les équipes achat, conformité et engineering, pas seulement par un benchmark.
Résultat clé
Les résultats mettent en avant des gains de précision, d’efficacité, de robustesse ou de généralisation. Pour un acheteur technique, l’enjeu est de réduire le risque de déploiement et d’élargir les cas d’usage.
Résumé
MMTalker est un système 3D de talking head piloté par la parole qui combine géométrie faciale multirésolution et fusion de caractéristiques multimodales. Il utilise paramétrisation de maillage, échantillonnage différentiable, convolutions de graphe et cross-attention pour améliorer le lip sync et les détails expressifs du mouvement facial généré.
Point de départ de la recherche
La motivation vient du passage de face swapping et reenactment facial des benchmarks de laboratoire vers des systèmes réels, où talking head synthesis, 3d facial animation, multimodal face generation influence directement confidentialité, coût, stabilité ou expérience utilisateur.
Méthode
L’approche de « MMTalker: Multiresolution 3D Talking Head Synthesis with Multimodal Feature Fusion » combine architecture, stratégie d’apprentissage ou optimisation système autour de talking head synthesis, 3d facial animation, multimodal face generation. Elle rapproche la recherche d’une capacité réellement déployable.
À retenir
En résumé, ce papier montre qu’en avril 2026 talking head synthesis, 3d facial animation, multimodal face generation devient une variable clé pour productiser et évaluer face swapping et reenactment facial.