← Назад в Блог
Исследовательский радарЗамена лицarXivИюнь 2026

Ежемесячный радар arXiv

Face swapping в июне 2026: conversational talking faces, fast portrait animation и privacy protection

Исследования делятся на interactive talking faces и защиту от unauthorized identity transfer; важны speed, multi-person behavior и protection.

Что показывает этот месяц

Месяц показывает движение synthesis к interactive systems и более threat-model-specific defenses: believable motion, low latency, guardrails.

Статья 012026-06-30cs.CV

Гибкое, естественное и эффективное взаимодействие для conversational talking face generation

Авторы и организации

Baiqin Wang

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Sen Chen

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Jiankuo Zhao

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Xiangyu Liu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Zhen Lei

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

CAIR, HKISI, Chinese Academy of Sciences

School of Computer Science and Engineering, Faculty of Innovation Engineering, Macau University of Science and Technology

Xiangyu Zhu

MAIS, Institute of Automation, Chinese Academy of Sciences

School of Artificial Intelligence, University of Chinese Academy of Sciences

Какую задачу решает

Работа закрывает gap между speaking-only generation и реальной conversation: любое число участников, long sessions, non-verbal feedback и low latency.

Ключевой результат

Авторы сообщают лучшую interaction quality при 30 FPS realtime generation — ключевой порог для online conversation.

Аннотация

InterTalk нацелен на conversational talking-face generation с несколькими участниками и многими раундами. Motion-based architecture, feedback, iterative generation, facial disentanglement, dataset и 3D augmentation дают 30 FPS.

Отправная точка исследования

Talking-face systems переходят от clips к persistent agents, tutors и avatars; listening behavior и turn-taking важны как lip sync.

Метод

Фреймворк моделирует dynamics по участникам, использует feedback motion других, iteratively refines behavior и разделяет facial components: lips, blinking, gestures.

Вывод по статье

InterTalk расширяет face-swapping/talking-head stack к interactive digital humans. Вопрос меняется: не только lip-sync clip, а sustained believable exchange in real time.

Статья 022026-06-29cs.CV

SyncCache: асимметричная динамика для быстрой аудио-управляемой портретной анимации

Авторы и организации

Juncheng Ma

Shenzhen Graduate School, Peking University, China

Yuxuan Du

Shenzhen Graduate School, Peking University, China

Yanan Sun

Shanghai AI Laboratory, China

Zhening Xing

Shanghai AI Laboratory, China

Changlin Li

Tencent Hunyuan, China

Zhenyu Tang

Shenzhen Graduate School, Peking University, China

Bo Li

vivo, China

Peng-Tao Jiang

vivo, China

Li Yuan

Shenzhen Graduate School, Peking University, China

Daquan Zhou

Shenzhen Graduate School, Peking University, China

Yonghong Tian

Shenzhen Graduate School, Peking University, China

Какую задачу решает

Работа исправляет mismatch generic diffusion caching: text-to-video assumptions не описывают spatial и modality imbalance audio-driven faces.

Ключевой результат

Метод дает до 4.12x на HunyuanVideo-Avatar и 3.75x на Wan-S2V при near-lossless fidelity и точном audio alignment.

Аннотация

SyncCache — training-free acceleration для DiT audio-driven portrait animation. Метод учитывает, что human regions и audio-conditioned motion динамичнее background.

Отправная точка исследования

Diffusion models для portrait animation мощные, но медленные; production avatars требуют speedup без ущерба lip sync и facial detail.

Метод

SyncCache сочетает Spatially-Asymmetric Probing, Modality-Decoupled Caching и memory-adaptive offline cache selection; audio-sensitive части recompute, стабильные residuals cache.

Вывод по статье

SyncCache снижает inference cost без retraining generator. Для avatar products это faster previews, lower cloud cost и больше шансов на interactive generation.

Статья 032026-06-30cs.CV

Phantom: единый фреймворк защиты от face-swap deepfakes с latent и spatial constraints

Авторы и организации

Jungkon Kim

Samsung Electronics, AI Platform Center

Cheolseung Jung

Samsung Electronics, AI Platform Center

Jong-Min Choi

Samsung Electronics, AI Platform Center

Juseong Lee

Samsung Electronics, AI Platform Center

Какую задачу решает

Работа бьет по слабостям prior adversarial protections: random targets дают ambiguous latent directions, unconstrained noise уходит в irrelevant regions.

Ключевой результат

На UniFace, INSwapper и SimSwap Phantom улучшает dodging protection на 27.8%, 25.6% и 16.6%; impersonation до +10.2% с лучшей fidelity.

Аннотация

Phantom — proactive protection для face-swap deepfakes. Он синтезирует identity-shifted, attribute-preserving targets и ограничивает perturbations семантически важными facial regions.

Отправная точка исследования

Deepfake detection реактивна; людям и брендам нужны controls, которые ломают unauthorized face swap до создания видео.

Метод

Phantom совместно оптимизирует latent и spatial constraints: attribute-preserving targets задают identity-aware directions, masked perturbations применяются к важным facial regions.

Вывод по статье

Phantom важен тем, что рассматривает face-swap defense как отдельный threat model. Для photo services и brand protection spatial constraints важны, чтобы не портить source image.