← Назад в Блог
Исследовательский радарСмена лицarXivМарт 2026

Ежемесячный радар arXiv

Работы по face swapping за март 2026 года: 3D head swap, видео идентичности с любыми референсами и лицевая диффузия

Исследования по face swapping в марте 2026 года одновременно движутся в двух направлениях: к более реалистичному и 3D-согласованному свапу для видео и к более широким системам генерации с сохранением идентичности, способным превращать любые референсы в управляемые портреты или клипы. Для продуктовых команд это означает, что техническая граница между face swap, генерацией аватаров и управляемым синтезом лиц продолжает размываться.

Что показывает этот месяц

В этом месяце гонка за качеством уже не сводится только к одношаговому переносу идентичности. Временная согласованность, 3D-структура и управляемость при нескольких референсах становятся настоящими факторами дифференциации.

Статья 012026-03-24cs.CV

GSwap: реалистичный head swapping с Dynamic Neural Gaussian Field

Авторы и организации

Jingtao Zhou

School of Mathematical Science, University of Science and Technology of China

Department of Computer Science, City University of Hong Kong

Xuan Gao

School of Mathematical Science, University of Science and Technology of China

Dongyu Liu

School of Mathematical Science, University of Science and Technology of China

Junhui Hou

Department of Computer Science, City University of Hong Kong

Yudong Guo

School of Mathematical Science, University of Science and Technology of China

Juyong Zhang

School of Mathematical Science, University of Science and Technology of China

Какую задачу решает

GSwap нацелен на то, чтобы сделать video head swapping более реалистичным, выйдя за пределы 2D-генерации и упрощенных предположений 3DMM.

Ключевой результат

Авторы сообщают о лучшем визуальном качестве, временной согласованности, сохранении идентичности и 3D-согласованности по сравнению с предыдущими методами head swapping, что указывает на быстрое взросление 3D-aware swap pipeline.

Аннотация

Мы представляем GSwap, новую систему head-swapping для видео, обеспечивающую согласованные и реалистичные результаты благодаря динамическим priors нейронных Gaussian portrait, что значительно продвигает state of the art в замене лиц и голов. В отличие от предыдущих методов, которые в основном опираются на 2D-генеративные модели или 3D Morphable Face Models (3DMM), наш подход преодолевает их присущие ограничения, включая слабую 3D-согласованность, неестественные выражения лица и ограниченное качество синтеза. Более того, существующие техники испытывают трудности с полноценными задачами head-swapping из-за недостаточного целостного моделирования головы и неэффективного смешивания с фоном, что часто приводит к заметным артефактам и несоответствиям. Для решения этих задач GSwap вводит внутреннее 3D Gaussian feature field, встроенное в полнотелую поверхность SMPL-X, эффективно поднимая 2D-портретные видео до динамического neural Gaussian field. Это нововведение обеспечивает высокоточное и 3D-согласованное рендеринг портретов, сохраняя естественные связи между головой и торсом и плавную динамику движений. Чтобы облегчить обучение, мы адаптируем предварительно обученную 2D-генеративную модель портретов к домену исходной головы, используя лишь несколько референсных изображений, что позволяет эффективно выполнять domain adaptation. Кроме того, мы предлагаем стратегию neural re-rendering, которая гармонично интегрирует синтезированный передний план с исходным фоном, устраняя артефакты смешивания и повышая реализм. Обширные эксперименты показывают, что GSwap превосходит существующие методы по нескольким аспектам, включая визуальное качество, временную согласованность, сохранение идентичности и 3D-согласованность.

Отправная точка исследования

Video face swapping быстро улучшается, но многие системы до сих пор проваливаются именно на тех деталях, которые пользователи замечают первыми: 3D-согласованность, естественное движение головы и бесшовное смешивание замененной головы с остальным телом. Авторы исходят из ограничений 2D-генераторов и пайплайнов на базе 3DMM, которые часто дают артефакты, когда задача расширяется от замены лица к полной замене головы. Их предпосылка в том, что реалистичный свап коммерческого уровня теперь требует моделирования полноценного динамического портрета, а не редактирования изолированной текстуры лица.

Метод

GSwap вводит динамическое представление neural Gaussian portrait, встроенное в поверхность тела SMPL-X, что позволяет совместно моделировать голову, торс и движение вместо того, чтобы рассматривать лицо как изолированный 2D-патч. Система адаптирует предварительно обученный генератор портретов к исходной идентичности по нескольким референсам, а затем выполняет neural re-rendering, чтобы синтезированный передний план естественнее интегрировался в исходный фон. Такая комбинация должна одновременно сохранять идентичность, стабилизировать временную динамику и избегать оторванного или смещенного вида, характерного для более ранних систем swapping.

Вывод по статье

Эта работа ясно показывает, что high-end face swapping превращается из трюка 2D-редактирования в задачу 3D-видеосинтеза. Рассматривая голову как часть полноценного динамического портрета, GSwap повышает реализм именно там, где это важнее всего для пользователей: в движении, структуре и смешивании. Для тех, кто отслеживает enterprise-grade face swap технологии, это одна из самых показательных статей марта 2026 года.

Статья 022026-03-26cs.CV

AnyID: универсальная генерация видео со сверхвысокой точностью сохранения идентичности по любым визуальным референсам

Авторы и организации

Jiahao Wang

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Hualian Sheng

Alibaba Cloud Computing

Sijia Cai

Alibaba Cloud Computing

Yuxiao Yang

Tsinghua University

Weizhan Zhang

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Caixia Yan

School of Computer Science and Technology, MOEKLINNS, Xian Jiaotong University

Bing Deng

Alibaba Cloud Computing

Jieping Ye

Alibaba Cloud Computing

Какую задачу решает

AnyID решает проблему неоднозначности переноса идентичности, объединяя гетерогенные референсы и вводя primary reference, которая фиксирует генерируемую идентичность.

Ключевой результат

В работе заявляются сверхвысокая точность сохранения идентичности и более сильная управляемость на уровне атрибутов по сравнению с прежними baseline для identity-preserving video generation.

Аннотация

Генерация видео с сохранением идентичности предоставляет мощные средства для творческого самовыражения, позволяя пользователям настраивать видео с участием любимых персонажей. Однако преобладающие методы обычно разрабатываются и оптимизируются для одной эталонной ссылки на идентичность. Это базовое допущение ограничивает творческую гибкость, поскольку недостаточно хорошо учитывает разнообразные реальные форматы входных данных. Опора на единственный источник также представляет собой некорректно поставленную задачу, создавая по своей сути неоднозначный сценарий, из-за которого модели трудно достоверно воспроизводить идентичность в новых контекстах. Для решения этих проблем мы представляем AnyID — фреймворк генерации видео с сохранением идентичности сверхвысокой точности, основанный на двух ключевых вкладах. Во-первых, мы вводим масштабируемую omni-referenced архитектуру, эффективно объединяющую гетерогенные входы идентичности (например, лица, портреты и видео) в целостное представление. Во-вторых, мы предлагаем парадигму генерации с primary-referenced, в которой одна ссылка назначается каноническим якорем, а новый differential prompt обеспечивает точную управляемость на уровне атрибутов. Мы проводим обучение на крупномасштабном тщательно курированном датасете, чтобы обеспечить устойчивость и высокую точность, а затем выполняем финальную стадию fine-tuning с использованием обучения с подкреплением. В этом процессе используется датасет предпочтений, построенный на основе человеческих оценок, где аннотаторы выполняли попарные сравнения видео по двум ключевым критериям: точность сохранения идентичности и управляемость prompt. Обширные эксперименты подтверждают, что AnyID обеспечивает сверхвысокую точность сохранения идентичности, а также превосходную управляемость на уровне атрибутов в различных постановках задач.

Отправная точка исследования

Многие системы генерации видео с сохранением идентичности исходят из того, что пользователь может предоставить одно чистое каноническое референсное изображение, но реальные продукты почти никогда так не работают. Пользователи загружают смесь селфи, портретов, клипов и несовершенных материалов, из-за чего сохранение идентичности становится намного сложнее и проявляется неоднозначность single-reference conditioning. Работа мотивирована необходимостью более гибкого фреймворка, способного усваивать разнородные сигналы идентичности, а не притворяться, что одного референса всегда достаточно.

Метод

AnyID вводит omni-referenced архитектуру, которая объединяет лица, портреты и видео в единое представление идентичности, а затем назначает один primary reference в качестве якоря генерации. Поверх этого добавляется механизм differential prompt, позволяющий управлять атрибутами без потери fidelity идентичности, а reinforcement-learning-based fine-tuning на человеческих preference data дополнительно улучшает и fidelity, и controllability. В целом система рассчитана на то, чтобы превращать хаотичные реальные референсы в более стабильный и пригодный pipeline условной генерации по идентичности.

Вывод по статье

Главная ценность AnyID не только в лучшем сохранении идентичности, но и в более реалистичном продуктовом допущении. Система исходит из того, что пользователи будут приносить несколько референсов, противоречивые сигналы и неполные признаки идентичности, и проектирует генерацию вокруг этой неупорядоченности. Поэтому работа особенно важна для следующего поколения face swap, avatar и personalized media tools.

Статья 032026-03-30cs.CV

MMFace-DiT: двухпоточный diffusion transformer для высокоточной мультимодальной генерации лиц

Авторы и организации

Bharath Krishnamurthy

University of North Texas, Denton, TX, USA

Ajita Rattani

University of North Texas, Denton, TX, USA

Какую задачу решает

MMFace-DiT нацелен на высокоточную мультимодальную генерацию лиц с лучшей координацией между семантическими prompt и пространственной структурой, что полезно и для продвинутых workflow face swapping.

Ключевой результат

Авторы сообщают об улучшении на 40% по визуальной точности и соответствию prompt по сравнению с шестью предыдущими baseline для мультимодальной генерации лиц.

Аннотация

Современные мультимодальные модели генерации лиц решают ограничения пространственного управления в диффузионных моделях text-to-image, дополняя текстовое условие пространственными априорными сигналами, такими как сегментационные маски, наброски или карты границ. Такое мультимодальное слияние позволяет выполнять управляемый синтез, согласованный как с высокоуровневым семантическим намерением, так и с низкоуровневой структурной раскладкой. Однако большинство существующих подходов обычно расширяют предварительно обученные text-to-image пайплайны, добавляя вспомогательные модули управления или сшивая отдельные unimodal-сети. Эти ad hoc конструкции наследуют архитектурные ограничения, дублируют параметры и часто дают сбои при конфликтующих модальностях или несогласованных латентных пространствах, что ограничивает их способность к синергетическому слиянию семантического и пространственного доменов. Мы представляем MMFace-DiT — унифицированный двухпоточный diffusion transformer, разработанный для синергетического мультимодального синтеза лиц. Его ключевая новизна заключается в двухпоточном transformer-блоке, который параллельно обрабатывает пространственные (mask/sketch) и семантические (text) токены, глубоко объединяя их через общий механизм внимания Rotary Position-Embedded (RoPE). Такая конструкция предотвращает доминирование одной модальности и обеспечивает сильное следование как текстовым, так и структурным priors, достигая беспрецедентной пространственно-семантической согласованности для управляемой генерации лиц. Кроме того, новый Modality Embedder позволяет одной целостной модели динамически адаптироваться к различным пространственным условиям без переобучения. MMFace-DiT достигает улучшения на 40% по визуальной точности и соответствию prompt по сравнению с шестью state-of-the-art мультимодальными моделями генерации лиц, задавая новую гибкую парадигму для сквозного управляемого генеративного моделирования. Код и датасет доступны на странице проекта: https://vcbsl.github.io/MMFace-DiT/

Отправная точка исследования

Мультимодальная генерация лиц стала более управляемой, но многие существующие системы по-прежнему опираются на лоскутные конструкции, где mask, sketch и другие виды управления навешиваются поверх text-to-image backbone. Такие ad hoc комбинации часто ломаются, когда семантические prompt и пространственные ограничения конфликтуют, то есть именно тогда, когда пользователю больше всего нужна хорошая управляемость. Работа исходит из идеи, что мультимодальной генерации лиц нужна более нативная архитектура слияния, а не очередной набор внешних control-модулей.

Метод

MMFace-DiT использует dual-stream diffusion transformer, который параллельно обрабатывает семантические входы и пространственные управления, а затем объединяет их через shared attention вместо поздней patchwork-интеграции. Также добавлен modality embedder, чтобы один и тот же backbone мог адаптироваться к разным пространственным условиям, таким как mask или sketch, без переобучения отдельных специализированных моделей. Это делает метод более единым framework для синтеза лиц и потенциально более сильной основой для будущих swap-oriented generative systems.

Вывод по статье

Эта работа важна потому, что управляемая генерация лиц становится базовой инфраструктурой для face swapping, avatar tools и media editing. MMFace-DiT утверждает, что лучшее качество генерации обеспечивается лучшим мультимодальным слиянием, а не просто более крупными diffusion pipeline. Если этот тезис и дальше будет подтверждаться, такие архитектуры могут определить следующее поколение высокоточных систем редактирования лиц.