← Назад в Блог
Исследовательский радарЗамена лицarXivАпрель 2026

Ежемесячный радар arXiv

Face swapping в апреле 2026: управление reenactment, talking heads и сохранение речи

Поскольку явных face-swap работ было мало, обзор расширен до facial reenactment и talking avatars, которые оценивают те же покупатели.

Что показывает этот месяц

Конкурентное преимущество смещается от одной визуальной реалистичности к управлению позой, эмоцией и речевым движением при стабильной генерации.

Статья 012026-04-03cs.CV

MMTalker: многомасштабный 3D-синтез talking head с мультимодальным слиянием признаков

Авторы и организации

Bin Liu

School of Communication and Information Engineering, Shanghai University, Shanghai, China

Zhixiang Xiong

Department of Electrical and Computer Engineering, Texas A&M University, College Station, TX, USA

Zhifen He

School of Communication and Information Engineering, Shanghai University, Shanghai, China

Bo Li

School of Communication and Information Engineering, Shanghai University, Shanghai, China

Какую задачу решает

Ключевая задача — устранить ограничения вокруг talking head synthesis, 3d facial animation, multimodal face generation в замена лиц и facial reenactment, чтобы решение можно было оценивать не только академически, но и с точки зрения закупок, compliance и engineering.

Ключевой результат

Результаты подчеркивают улучшения точности, эффективности, устойчивости или генерализации. Для технического покупателя важно, снижает ли это риск внедрения и расширяет ли сценарии применения.

Аннотация

MMTalker — это 3D speech-driven talking-head система, объединяющая многомасштабную геометрию лица с мультимодальным слиянием признаков. Она использует mesh parameterization, дифференцируемое sampling, graph convolutions и cross-attention, чтобы улучшить lip sync и выразительные детали генерируемого движения лица.

Отправная точка исследования

Мотивация в том, что замена лиц и facial reenactment переходит от лабораторных benchmark к реальным системам, где talking head synthesis, 3d facial animation, multimodal face generation напрямую влияет на приватность, стоимость, стабильность или пользовательский опыт.

Метод

Подход в «MMTalker: Multiresolution 3D Talking Head Synthesis with Multimodal Feature Fusion» сочетает архитектурный дизайн, стратегию обучения или системную оптимизацию для talking head synthesis, 3d facial animation, multimodal face generation. Это приближает исследование к внедряемой продуктовой возможности.

Вывод по статье

Итог: эта работа показывает, что в апреле 2026 talking head synthesis, 3d facial animation, multimodal face generation становится важной переменной для продуктовой оценки замена лиц и facial reenactment.

Статья 022026-04-21cs.CV

PortraitDirector: иерархический disentanglement-фреймворк для управляемого realtime facial reenactment

Авторы и организации

Chaonan Ji

Tongyi Lab, Alibaba Group

Jinwei Qi

Tongyi Lab, Alibaba Group

Sheng Xu

Tongyi Lab, Alibaba Group

Peng Zhang

Tongyi Lab, Alibaba Group

Bang Zhang

Tongyi Lab, Alibaba Group

Какую задачу решает

Ключевая задача — устранить ограничения вокруг facial reenactment, controllable avatars, real-time portrait animation в замена лиц и facial reenactment, чтобы решение можно было оценивать не только академически, но и с точки зрения закупок, compliance и engineering.

Ключевой результат

Результаты подчеркивают улучшения точности, эффективности, устойчивости или генерализации. Для технического покупателя важно, снижает ли это риск внедрения и расширяет ли сценарии применения.

Аннотация

PortraitDirector рассматривает facial reenactment как задачу иерархической композиции, а не как единый монолитный motion transfer. Разделяя pose, локальное expression и semantic emotion, а затем рекомбинируя их с runtime-оптимизациями, система нацелена на управляемый high-fidelity reenactment в реальном времени.

Отправная точка исследования

Мотивация в том, что замена лиц и facial reenactment переходит от лабораторных benchmark к реальным системам, где facial reenactment, controllable avatars, real-time portrait animation напрямую влияет на приватность, стоимость, стабильность или пользовательский опыт.

Метод

Подход в «PortraitDirector: A Hierarchical Disentanglement Framework for Controllable and Real-time Facial Reenactment» сочетает архитектурный дизайн, стратегию обучения или системную оптимизацию для facial reenactment, controllable avatars, real-time portrait animation. Это приближает исследование к внедряемой продуктовой возможности.

Вывод по статье

Итог: эта работа показывает, что в апреле 2026 facial reenactment, controllable avatars, real-time portrait animation становится важной переменной для продуктовой оценки замена лиц и facial reenactment.

Статья 032026-04-23cs.CV

Обучение пространственно-временным согласованным корреляциям для изменения мимики с сохранением речи

Авторы и организации

Tianshui Chen

Guangdong University of Technology, Guangzhou, China

Jianman Lin

Guangdong University of Technology, Guangzhou, China

Zhijing Yang

Guangdong University of Technology, Guangzhou, China

Chunmei Qing

South China University of Technology, Guangzhou, China

Guangrun Wang

Sun Yat-sen University, Guangzhou, China

Liang Lin

Sun Yat-sen University, Guangzhou, China

Какую задачу решает

Ключевая задача — устранить ограничения вокруг facial expression manipulation, speech-preserving editing, talking face control в замена лиц и facial reenactment, чтобы решение можно было оценивать не только академически, но и с точки зрения закупок, compliance и engineering.

Ключевой результат

Результаты подчеркивают улучшения точности, эффективности, устойчивости или генерализации. Для технического покупателя важно, снижает ли это риск внедрения и расширяет ли сценарии применения.

Аннотация

Работа изучает изменение выражения лица с сохранением речи: нужно менять эмоцию, не разрушая движение рта, соответствующее произнесенному содержанию. Она вводит обучение spatial-temporal coherent correlations, чтобы контролировать edits через паттерны соответствия между областями и кадрами вместо труднодоступных paired data.

Отправная точка исследования

Мотивация в том, что замена лиц и facial reenactment переходит от лабораторных benchmark к реальным системам, где facial expression manipulation, speech-preserving editing, talking face control напрямую влияет на приватность, стоимость, стабильность или пользовательский опыт.

Метод

Подход в «Learning Spatial-Temporal Coherent Correlations for Speech-Preserving Facial Expression Manipulation» сочетает архитектурный дизайн, стратегию обучения или системную оптимизацию для facial expression manipulation, speech-preserving editing, talking face control. Это приближает исследование к внедряемой продуктовой возможности.

Вывод по статье

Итог: эта работа показывает, что в апреле 2026 facial expression manipulation, speech-preserving editing, talking face control становится важной переменной для продуктовой оценки замена лиц и facial reenactment.