Исследовательский радарОбнаружение deepfakearXivМарт 2026

Ежемесячный радар arXiv

Статьи марта 2026 по обнаружению deepfake: взгляд, части лица, структурированное рассуждение и семантика VLM

Исследования по обнаружению deepfake в марте 2026 выходят за рамки простого поиска артефактов. Наиболее сильные работы сочетают анатомически осмысленные сигналы, анализ на уровне частей лица и vision-language семантику, чтобы лучше обобщаться на новые генераторы. Это делает тему особенно ценной и для SEO, поскольку она перекрывает как академический, так и коммерческий поисковый интерес вокруг deepfake detection, face forgery detection и доверия к ИИ-медиа.

Что показывает этот месяц

Наиболее убедительный тренд марта 2026 года — форензическая специализация: вместо надежды на то, что универсальный backbone сам заметит все артефакты, лучшие работы явно моделируют взгляд, части лица или поэтапное рассуждение, чтобы извлекать доказательства более контролируемо.

Статья 012026-03-31cs.CV

GazeCLIP: CLIP с управлением по взгляду и адаптивно усиленными тонкозернистыми языковыми prompts для атрибуции и обнаружения deepfake

arXiv PDF

Авторы и организации

Yaning Zhang

Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China

Linlin Shen

Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China

National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China

Shenzhen Institute of Artificial Intelligence and Robotics for Society, China

Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China

Zitong Yu

School of Computing and Information Technology, Great Bay University, China

Chunjie Ma

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Zan Gao

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China

Какую задачу решает

GazeCLIP нацелен и на атрибуцию, и на детекцию, проверяя, могут ли сигналы, учитывающие взгляд, улучшить обобщение на невидимые методы подделки.

Ключевой результат

На benchmark-датасете авторов метод превосходит предыдущий state of the art в сценарии с невидимыми генераторами на 6.56% средней точности для атрибуции и на 5.32% AUC для детекции.

Аннотация

Текущие работы по атрибуции deepfake или их обнаружению, как правило, демонстрируют слабую обобщающую способность на новые генеративные методы из-за ограниченного изучения только визуальных модальностей. Обычно они грубо оценивают качество атрибуции или детекции моделей на невидимых продвинутых генераторах и не учитывают синергию этих двух задач. Для решения этой проблемы мы предлагаем новый gaze-guided CLIP с adaptively enhanced fine-grained language prompts для тонкозернистой атрибуции и обнаружения deepfake (DFAD). В частности, мы создаем новый детализированный benchmark для оценки качества DFAD сетей на новых генераторах, таких как diffusion- и flow-модели. Кроме того, мы вводим gaze-aware модель на основе CLIP, предназначенную для улучшения обобщения на невиданные атаки подделки лиц. Опираясь на новое наблюдение о том, что между векторами взгляда подлинных и поддельных изображений существуют значительные различия распределений, а сохранение целевого взгляда в лицевых изображениях, сгенерированных GAN и diffusion-моделями, заметно различается, мы разрабатываем visual perception encoder, использующий присущие различия во взгляде для извлечения глобальных forgery embeddings в доменах внешнего вида и взгляда. Мы предлагаем gaze-aware image encoder (GIE), который объединяет prompts поддельного взгляда, извлеченные gaze encoder, с общими embeddings поддельных изображений для захвата общих паттернов атрибуции, позволяя преобразовывать признаки в более стабильное и общее пространство признаков DFAD. Мы создаем language refinement encoder (LRE) для генерации динамически усиленных языковых embeddings с помощью adaptive-enhanced word selector, обеспечивая точное сопоставление vision-language. Обширные эксперименты на нашем benchmark показывают, что наша модель превосходит state-of-the-art на 6.56% по ACC и на 5.32% по AUC по средней производительности в режимах атрибуции и детекции соответственно. Код будет доступен на GitHub.

Отправная точка исследования

Детекторы deepfake часто слишком сильно опираются на внешний вид изображения и резко теряют качество, когда новый генератор создает артефакты, не похожие на обучающие. Авторы исходят из наблюдения, что поддельные лица также отличаются по поведению взгляда и его сохранению, особенно между GAN- и diffusion-пайплайнами, но этот сигнал пока используется недостаточно. Их мотивация — одновременно улучшить и атрибуцию, и обнаружение deepfake так, чтобы система обобщалась на невидимые генераторы, а не ломалась с выходом следующей модели.

Метод

GazeCLIP строит gaze-aware фреймворк в стиле CLIP, где визуальные признаки подделки и prompts, основанные на взгляде, объединяются в более стабильное криминалистическое пространство эмбеддингов. Метод вводит gaze-aware image encoder и language refinement encoder с адаптивным выбором слов, чтобы текстовая ветвь точнее описывала сигналы подлинности. Кроме того, в работе создается более тонкозернистый benchmark, ориентированный на атрибуцию и детекцию при новых diffusion- и flow-based генераторах, что усиливает убедительность оценки.

Вывод по статье

Работа интересна тем, что добавляет в инструментарий обнаружения deepfake новую анатомическую подсказку — согласованность взгляда, — вместо бесконечного повторения текстуроцентричного подхода. Именно этот сдвиг помогает объяснить, почему метод лучше работает на невидимых генераторах, а не только на знакомых датасетах. Для тех, кто следит за защитой от подделки лиц, GazeCLIP — сильный пример того, как мультимодальное рассуждение становится практически полезным.

Статья 022026-03-27cs.CV

Face2Parts: исследование coarse-to-fine межрегиональных зависимостей лица для обобщаемого обнаружения deepfake

arXiv PDF

Авторы и организации

Kutub Uddin

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Nusrat Tasnim

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Byung Tae Oh

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Какую задачу решает

Face2Parts предназначен для моделирования coarse-to-fine зависимостей между полным кадром, кропом лица и ключевыми подрегионами, такими как глаза, губы и нос.

Ключевой результат

В работе сообщаются сильные средние значения AUC на широком наборе benchmark-датасетов, включая 98.42% на FaceForensics++, а также конкурентоспособные cross-dataset результаты на вариантах DFDC, DFD и CDF.

Аннотация

Мультимедийные данные, особенно изображения и видео, играют важную роль в различных приложениях, включая наблюдение, визуальное взаимодействие, биометрию, сбор доказательств и рекламу. Однако как начинающие, так и опытные фальсификаторы могут имитировать их для создания deepfake, часто с клеветническими целями. Для решения этой проблемы были разработаны различные криминалистические методы, направленные на подтверждение подлинности контента. Эффективность этих методов зависит от того, на чем именно они сосредоточены, при этом трудности возникают из-за разнообразной природы манипуляций. В этой статье мы анализируем существующие криминалистические методы и отмечаем, что каждый из них имеет собственные сильные стороны в обнаружении следов deepfake, фокусируясь на определенных областях лица, таких как кадр, лицо, губы, глаза или нос. Учитывая эти выводы, мы предлагаем новый гибридный подход Face2Parts, основанный на иерархическом представлении признаков ($HFR$), который использует информацию coarse-to-fine для улучшения обнаружения deepfake. Предлагаемый метод предполагает раздельное извлечение признаков из кадра, лица и ключевых областей лица (то есть губ, глаз и носа), чтобы исследовать отношения coarse-to-fine. Такой подход позволяет нам захватывать взаимозависимости между областями лица с помощью механизма channel-attention и глубокого triplet learning. Мы оценили предложенный метод на benchmark-датасетах deepfake в режимах intra-dataset, inter-dataset и inter-manipulation. Предложенный метод достигает средней AUC 98.42% на FF++, 79.80% на CDF1, 85.34% на CDF2, 89.41% на DFD, 84.07% на DFDC, 95.62% на DTIM, 80.76% на PDD и 100% на WLDR соответственно. Результаты показывают, что наш подход эффективно обобщается и демонстрирует многообещающее качество, превосходя существующие методы.

Отправная точка исследования

Методы обнаружения deepfake часто сильны именно за счет специализации: одна модель лучше работает на границах лица, другая — в области глаз, третья — на артефактах вокруг рта. Авторы исходят из того, что эти сильные стороны не должны конкурировать, а должны объединяться, поскольку следы подделки распределены по разным масштабам и разным частям изображения. Их цель — спроектировать детектор, который явно захватывает это coarse-to-fine разнообразие, а не надеется, что одна монолитная карта признаков обнаружит все сама.

Метод

Face2Parts извлекает признаки из полного кадра, кропа лица и нескольких ключевых областей лица, таких как губы, глаза и нос, а затем моделирует их взаимодействия с помощью channel attention и deep triplet learning. Такое иерархическое представление признаков должно захватывать и глобальный контекст, и небольшие локальные артефакты, одновременно изучая, как разные области усиливают друг друга. Оценка охватывает сценарии intra-dataset, cross-dataset и inter-manipulation, что особенно важно, поскольку многие детекторы ломаются именно при смене типа манипуляции.

Вывод по статье

Face2Parts полезен тем, что формализует очень интуитивный криминалистический процесс: сначала осмотреть все изображение, затем приблизить лицо, а потом сфокусироваться на наиболее подозрительных частях. Сильные результаты на benchmark-датасетах показывают, что такой многослойный процесс проверки не только интерпретируем, но и эффективен. Для практиков это напоминание о том, что обнаружение deepfake можно улучшать не только масштабированием моделей, но и лучшей структурой доказательств.

Статья 032026-03-23cs.CV

VIGIL: структурированное рассуждение с привязкой к частям лица для обобщаемого обнаружения deepfake

arXiv PDF

Авторы и организации

Xinghan Li

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Junhao Xu

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Jingjing Chen

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Какую задачу решает

VIGIL разделяет этап планирования и этап исследования, так что детектор сначала решает, какие части стоит проверять, и лишь потом получает доказательства на уровне частей.

Ключевой результат

На OmniFake и в cross-dataset тестах авторы показывают более сильное обобщение, чем у экспертных детекторов и более ранних методов на основе MLLM.

Аннотация

Мультимодальные большие языковые модели (MLLMs) открывают многообещающий путь к интерпретируемому обнаружению deepfake за счет генерации текстовых объяснений. Однако процесс рассуждения в современных методах на основе MLLM объединяет генерацию доказательств и локализацию манипуляций в один шаг. Такое объединение размывает границу между достоверными наблюдениями и галлюцинированными объяснениями, что приводит к ненадежным выводам. Исходя из этого, мы представляем VIGIL — структурированный криминалистический фреймворк, ориентированный на части лица и вдохновленный экспертной криминалистической практикой через pipeline plan-then-examine: сначала модель планирует, какие части лица требуют проверки на основе глобальных визуальных сигналов, а затем исследует каждую часть с использованием независимо полученных криминалистических доказательств. Механизм stage-gated injection подает криминалистические доказательства на уровне частей только на этапе исследования, гарантируя, что выбор частей определяется собственным восприятием модели, а не смещается внешними сигналами. Кроме того, мы предлагаем прогрессивную трехэтапную парадигму обучения, в которой стадия обучения с подкреплением использует rewards, учитывающие части лица, чтобы обеспечивать анатомическую валидность и согласованность между доказательством и выводом. Для строгой оценки обобщаемости мы создаем OmniFake — иерархический benchmark из 5 уровней, где модель, обученная лишь на трех базовых генераторах, постепенно тестируется вплоть до реальных данных социальных сетей in-the-wild. Обширные эксперименты на OmniFake и cross-dataset оценки показывают, что VIGIL стабильно превосходит как экспертные детекторы, так и современные методы на основе MLLM на всех уровнях обобщаемости.

Отправная точка исследования

Детекторы deepfake на основе MLLM обещают объяснимость, но многие из них смешивают два принципиально разных шага: выбор того, что нужно проверить, и интерпретацию того, что означает найденное доказательство. Такое слияние затрудняет обнаружение галлюцинаций, потому что модель одновременно выдумывает и наблюдение, и вывод. Мотивация работы — развести эти стадии, чтобы рассуждение о deepfake больше походило на криминалистический анализ, а не на гладкую импровизацию.

Метод

VIGIL использует pipeline plan-then-examine, где система сначала выбирает части лица, заслуживающие проверки, и только затем подает в процесс рассуждения регионально-специфичные криминалистические доказательства. Модель также применяет stage-gated подачу доказательств и прогрессивное обучение с part-aware rewards в reinforcement learning, чтобы объяснения оставались привязанными к правдоподобной анатомии и согласованным цепочкам доказательств. Для более строгой проверки обобщения работа вводит OmniFake — пятиуровневый benchmark, который охватывает путь от базовых генераторов до in-the-wild данных из социальных сетей.

Вывод по статье

Главный вклад VIGIL — структурный: он рассматривает объяснимое обнаружение deepfake как задачу проектирования pipeline, а не просто как задачу prompting. Заставляя детектор сначала выбрать части лица, а потом уже объяснять, фреймворк упрощает различение между обоснованными доказательствами и галлюцинированным повествованием. Поэтому работа особенно важна для команд, которым нужны детекторы с объяснениями, пригодными для человеческой проверки, а не только для эффектных демо.

Статья 042026-03-25cs.CV

Раскрытие потенциала vision-language семантики для обнаружения deepfake-видео

arXiv PDF

Авторы и организации

Jiawen Zhu

Singapore Management University, Singapore

Yunqi Miao

The University of Warwick, UK

Xueyi Zhang

Nanyang Technological University, Singapore

Jiankang Deng

Imperial College London, UK

Guansong Pang

Singapore Management University, Singapore

Какую задачу решает

VLAForge ставит вопрос: как превратить cross-modal семантику в более сильный дискриминативный сигнал и для классических face swap, и для новых полностью синтетических видео лица?

Ключевой результат

В работе сообщается о существенных улучшениях по сравнению с предыдущими методами обнаружения deepfake-видео как на уровне кадра, так и на уровне видео на benchmark-датасетах face-swapping и full-face generation.

Аннотация

Недавние исследования Deepfake Video Detection (DFD) показали, что предварительно обученные Vision-Language Models (VLMs), такие как CLIP, обладают сильной способностью к обобщению при обнаружении артефактов для разных идентичностей. Однако существующие подходы сосредоточены только на использовании визуальных признаков, игнорируя их наиболее отличительное преимущество — богатую vision-language семантику, встроенную в латентное пространство. Мы предлагаем VLAForge — новый фреймворк DFD, который раскрывает потенциал такой cross-modal семантики для усиления дискриминативности модели в обнаружении deepfake. В этой работе i) усиливается визуальное восприятие VLM с помощью ForgePerceiver, который выступает как независимый learner для захвата разнообразных и тонких признаков подделки как на детальном, так и на целостном уровне, при этом сохраняя предварительно обученные знания Vision-Language Alignment (VLA), и ii) вводится дополнительный дискриминативный сигнал — Identity-Aware VLA score, получаемый за счет связывания cross-modal семантики с признаками подделки, изученными ForgePerceiver. Примечательно, что VLA score усиливается с помощью текстового prompting, информированного identity prior, чтобы захватывать признаки подлинности, адаптированные к каждой идентичности, тем самым обеспечивая более дискриминативную cross-modal семантику. Комплексные эксперименты на video DFD benchmark-датасетах, включая классические подделки face-swapping и недавние подделки с полной генерацией лица, показывают, что VLAForge существенно превосходит методы state-of-the-art как на уровне кадра, так и на уровне видео. Код доступен по адресу https://github.com/mala-lab/VLAForge.

Отправная точка исследования

Модели vision-language, такие как CLIP, показали впечатляющую переносимость, однако многие методы обнаружения deepfake-видео по-прежнему используют их лишь как более сильные визуальные энкодеры. Авторы утверждают, что так теряется самая отличительная часть модели — само cross-modal семантическое пространство. Их мотивация состоит в том, чтобы превратить это скрытое семантическое выравнивание в дискриминативный сигнал для обнаружения deepfake, особенно при обобщении одновременно на классические face swap и новые полностью синтетические видео лица.

Метод

Предлагаемый фреймворк VLAForge добавляет ForgePerceiver для извлечения тонких признаков подделки, сохраняя при этом исходное vision-language alignment, выученное предварительно обученной VLM. Затем вводится identity-aware vision-language alignment score, поддержанный identity-informed prompts, чтобы cross-modal пространство стало чувствительнее к несоответствиям подлинности. Это позволяет детектору сочетать восприятие артефактов и семантическое сравнение, а не полагаться только на один из этих механизмов.

Вывод по статье

Главный вывод работы в том, что обнаружение deepfake-видео может получить реальную устойчивость, если использовать vision-language семантику по назначению, а не как декоративное дополнение. VLAForge показывает, что семантическое выравнивание, identity priors и специализированное восприятие подделки могут работать совместно, а не конкурировать друг с другом. Для тех, кто следит за будущим защиты от deepfake, это важный шаг к детекторам, которые лучше обобщаются и при этом концептуально лучше обоснованы.