← Retour au Blog

Radar de rechercheFace swappingarXivJuin 2026

Radar arXiv mensuel

Face swapping en juin 2026 : visages conversationnels, animation rapide et protection de la vie privée

La recherche se divise entre talking faces interactifs et défenses contre transfert d’identité non autorisé ; vitesse, multi-personnes et protection dominent.

Ce que révèle ce mois-ci

Le mois montre une synthèse plus interactive et des défenses plus spécifiques : mouvement crédible, faible latence et garde-fous.

Article 012026-06-30cs.CV

Interaction flexible, naturelle et efficace pour la génération de visages parlants conversationnels

Auteurs & institutions

Baiqin Wang

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Sen Chen

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Jiankuo Zhao

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Xiangyu Liu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Zhen Lei

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

CAIR, HKISI, Chinese Academy of Sciences

School of Computer Science and Engineering, Faculty of Innovation Engineering, Macau University of Science and Technology

Xiangyu Zhu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Problème traité

Il traite l’écart entre génération de parole seule et vraie conversation : participants arbitraires, sessions longues, feedback non verbal et faible latence.

Résultat clé

Les auteurs rapportent une meilleure qualité d’interaction tout en maintenant 30 FPS, seuil clé pour l’usage conversationnel en ligne.

Résumé

InterTalk vise des visages parlants conversationnels multi-participants et multi-tours. Il combine architecture motion-based, feedback, génération itérative, disentanglement facial, dataset multi-personnes et augmentation 3D pour 30 FPS.

Point de départ de la recherche

Les systèmes de visages parlants passent de clips à agents, tuteurs et avatars ; écoute et tour de parole comptent autant que le lip sync.

Méthode

Le cadre modélise la dynamique par participant, exploite les mouvements de feedback, affine itérativement et sépare lèvres, clignement et gestes de réponse.

À retenir

InterTalk pousse les talking heads vers les humains numériques interactifs. La question devient : tenir un échange crédible multi-rôles en temps réel.

Article 022026-06-29cs.CV

SyncCache : exploiter les dynamiques asymétriques pour accélérer l’animation de portrait guidée par audio

Auteurs & institutions

Juncheng Ma

Shenzhen Graduate School, Peking University, China

Yuxuan Du

Shenzhen Graduate School, Peking University, China

Yanan Sun

Shanghai AI Laboratory, China

Zhening Xing

Shanghai AI Laboratory, China

Changlin Li

Tencent Hunyuan, China

Zhenyu Tang

Shenzhen Graduate School, Peking University, China

Bo Li

vivo, China

Peng-Tao Jiang

vivo, China

Li Yuan

Shenzhen Graduate School, Peking University, China

Daquan Zhou

Shenzhen Graduate School, Peking University, China

Yonghong Tian

Shenzhen Graduate School, Peking University, China

Problème traité

Il corrige le décalage du caching diffusion générique : les hypothèses text-to-video ne couvrent pas les déséquilibres spatiaux et modaux des visages audio-driven.

Résultat clé

La méthode rapporte jusqu’à 4,12x sur HunyuanVideo-Avatar et 3,75x sur Wan-S2V avec fidélité quasi sans perte et alignement audio précis.

Résumé

SyncCache accélère sans entraînement l’animation de portrait DiT guidée par audio. Il distingue régions humaines/audio dynamiques et arrière-plan plus stable.

Point de départ de la recherche

Les modèles de diffusion pour portrait sont puissants mais lents ; les avatars en production exigent vitesse sans casser lip sync ni détails.

Méthode

Il combine Spatially-Asymmetric Probing, Modality-Decoupled Caching et sélection offline adaptée à la mémoire ; les parties sensibles à l’audio sont recalculées.

À retenir

SyncCache réduit le coût d’inférence sans réentraînement. Pour les avatars : previews plus rapides, coût cloud réduit et génération interactive plus réaliste.

Article 032026-06-30cs.CV

Phantom : cadre unifié de protection contre les face-swap deepfakes avec contraintes latentes et spatiales

Auteurs & institutions

Jungkon Kim

Samsung Electronics, AI Platform Center

Cheolseung Jung

Samsung Electronics, AI Platform Center

Jong-Min Choi

Samsung Electronics, AI Platform Center

Juseong Lee

Samsung Electronics, AI Platform Center

Problème traité

Il cible les faiblesses antérieures : cibles aléatoires aux directions latentes ambiguës et bruit non contraint dans des régions non identitaires.

Résultat clé

Sur UniFace, INSwapper et SimSwap, Phantom améliore le succès dodging de 27,8 %, 25,6 % et 16,6 % ; impersonation gagne jusqu’à 10,2 %.

Résumé

Phantom protège proactivement contre les face-swap deepfakes. Il synthétise des cibles avec identité déplacée mais attributs préservés, puis limite les perturbations aux régions faciales pertinentes.

Point de départ de la recherche

La détection est réactive ; personnes et marques ont besoin de contrôles qui empêchent le face swap non autorisé avant la création.

Méthode

Phantom optimise conjointement contraintes latentes et spatiales : cibles attributaires pour directions identity-aware, puis perturbations masquées dans les régions faciales pertinentes.

À retenir

Phantom traite le face-swap comme menace distincte, pas comme simple attaque FR. Pour services photo, célébrités et marques, la contrainte spatiale évite de dégrader visiblement l’image.