Авторы и организации
Jingtao Zhou
School of Mathematical Science, University of Science and Technology of China
Department of Computer Science, City University of Hong Kong
Xuan Gao
School of Mathematical Science, University of Science and Technology of China
Dongyu Liu
School of Mathematical Science, University of Science and Technology of China
Junhui Hou
Department of Computer Science, City University of Hong Kong
Yudong Guo
School of Mathematical Science, University of Science and Technology of China
Juyong Zhang
School of Mathematical Science, University of Science and Technology of China
Какую задачу решает
GSwap нацелен на то, чтобы сделать video head swapping более реалистичным, выйдя за пределы 2D-генерации и упрощенных предположений 3DMM.
Ключевой результат
Авторы сообщают о лучшем визуальном качестве, временной согласованности, сохранении идентичности и 3D-согласованности по сравнению с предыдущими методами head swapping, что указывает на быстрое взросление 3D-aware swap pipeline.
Аннотация
Мы представляем GSwap, новую систему head-swapping для видео, обеспечивающую согласованные и реалистичные результаты благодаря динамическим priors нейронных Gaussian portrait, что значительно продвигает state of the art в замене лиц и голов. В отличие от предыдущих методов, которые в основном опираются на 2D-генеративные модели или 3D Morphable Face Models (3DMM), наш подход преодолевает их присущие ограничения, включая слабую 3D-согласованность, неестественные выражения лица и ограниченное качество синтеза. Более того, существующие техники испытывают трудности с полноценными задачами head-swapping из-за недостаточного целостного моделирования головы и неэффективного смешивания с фоном, что часто приводит к заметным артефактам и несоответствиям. Для решения этих задач GSwap вводит внутреннее 3D Gaussian feature field, встроенное в полнотелую поверхность SMPL-X, эффективно поднимая 2D-портретные видео до динамического neural Gaussian field. Это нововведение обеспечивает высокоточное и 3D-согласованное рендеринг портретов, сохраняя естественные связи между головой и торсом и плавную динамику движений. Чтобы облегчить обучение, мы адаптируем предварительно обученную 2D-генеративную модель портретов к домену исходной головы, используя лишь несколько референсных изображений, что позволяет эффективно выполнять domain adaptation. Кроме того, мы предлагаем стратегию neural re-rendering, которая гармонично интегрирует синтезированный передний план с исходным фоном, устраняя артефакты смешивания и повышая реализм. Обширные эксперименты показывают, что GSwap превосходит существующие методы по нескольким аспектам, включая визуальное качество, временную согласованность, сохранение идентичности и 3D-согласованность.
Отправная точка исследования
Video face swapping быстро улучшается, но многие системы до сих пор проваливаются именно на тех деталях, которые пользователи замечают первыми: 3D-согласованность, естественное движение головы и бесшовное смешивание замененной головы с остальным телом. Авторы исходят из ограничений 2D-генераторов и пайплайнов на базе 3DMM, которые часто дают артефакты, когда задача расширяется от замены лица к полной замене головы. Их предпосылка в том, что реалистичный свап коммерческого уровня теперь требует моделирования полноценного динамического портрета, а не редактирования изолированной текстуры лица.
Метод
GSwap вводит динамическое представление neural Gaussian portrait, встроенное в поверхность тела SMPL-X, что позволяет совместно моделировать голову, торс и движение вместо того, чтобы рассматривать лицо как изолированный 2D-патч. Система адаптирует предварительно обученный генератор портретов к исходной идентичности по нескольким референсам, а затем выполняет neural re-rendering, чтобы синтезированный передний план естественнее интегрировался в исходный фон. Такая комбинация должна одновременно сохранять идентичность, стабилизировать временную динамику и избегать оторванного или смещенного вида, характерного для более ранних систем swapping.
Вывод по статье
Эта работа ясно показывает, что high-end face swapping превращается из трюка 2D-редактирования в задачу 3D-видеосинтеза. Рассматривая голову как часть полноценного динамического портрета, GSwap повышает реализм именно там, где это важнее всего для пользователей: в движении, структуре и смешивании. Для тех, кто отслеживает enterprise-grade face swap технологии, это одна из самых показательных статей марта 2026 года.