GazeCLIP: CLIP с управлением по взгляду и адаптивно усиленными тонкозернистыми языковыми prompts для атрибуции и обнаружения deepfake
Авторы и организации
Yaning Zhang
Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China
Linlin Shen
Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China
National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China
Shenzhen Institute of Artificial Intelligence and Robotics for Society, China
Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China
Zitong Yu
School of Computing and Information Technology, Great Bay University, China
Chunjie Ma
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Zan Gao
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China
Какую задачу решает
GazeCLIP нацелен и на атрибуцию, и на детекцию, проверяя, могут ли сигналы, учитывающие взгляд, улучшить обобщение на невидимые методы подделки.
Ключевой результат
На benchmark-датасете авторов метод превосходит предыдущий state of the art в сценарии с невидимыми генераторами на 6.56% средней точности для атрибуции и на 5.32% AUC для детекции.
Аннотация
Текущие работы по атрибуции deepfake или их обнаружению, как правило, демонстрируют слабую обобщающую способность на новые генеративные методы из-за ограниченного изучения только визуальных модальностей. Обычно они грубо оценивают качество атрибуции или детекции моделей на невидимых продвинутых генераторах и не учитывают синергию этих двух задач. Для решения этой проблемы мы предлагаем новый gaze-guided CLIP с adaptively enhanced fine-grained language prompts для тонкозернистой атрибуции и обнаружения deepfake (DFAD). В частности, мы создаем новый детализированный benchmark для оценки качества DFAD сетей на новых генераторах, таких как diffusion- и flow-модели. Кроме того, мы вводим gaze-aware модель на основе CLIP, предназначенную для улучшения обобщения на невиданные атаки подделки лиц. Опираясь на новое наблюдение о том, что между векторами взгляда подлинных и поддельных изображений существуют значительные различия распределений, а сохранение целевого взгляда в лицевых изображениях, сгенерированных GAN и diffusion-моделями, заметно различается, мы разрабатываем visual perception encoder, использующий присущие различия во взгляде для извлечения глобальных forgery embeddings в доменах внешнего вида и взгляда. Мы предлагаем gaze-aware image encoder (GIE), который объединяет prompts поддельного взгляда, извлеченные gaze encoder, с общими embeddings поддельных изображений для захвата общих паттернов атрибуции, позволяя преобразовывать признаки в более стабильное и общее пространство признаков DFAD. Мы создаем language refinement encoder (LRE) для генерации динамически усиленных языковых embeddings с помощью adaptive-enhanced word selector, обеспечивая точное сопоставление vision-language. Обширные эксперименты на нашем benchmark показывают, что наша модель превосходит state-of-the-art на 6.56% по ACC и на 5.32% по AUC по средней производительности в режимах атрибуции и детекции соответственно. Код будет доступен на GitHub.
Отправная точка исследования
Детекторы deepfake часто слишком сильно опираются на внешний вид изображения и резко теряют качество, когда новый генератор создает артефакты, не похожие на обучающие. Авторы исходят из наблюдения, что поддельные лица также отличаются по поведению взгляда и его сохранению, особенно между GAN- и diffusion-пайплайнами, но этот сигнал пока используется недостаточно. Их мотивация — одновременно улучшить и атрибуцию, и обнаружение deepfake так, чтобы система обобщалась на невидимые генераторы, а не ломалась с выходом следующей модели.
Метод
GazeCLIP строит gaze-aware фреймворк в стиле CLIP, где визуальные признаки подделки и prompts, основанные на взгляде, объединяются в более стабильное криминалистическое пространство эмбеддингов. Метод вводит gaze-aware image encoder и language refinement encoder с адаптивным выбором слов, чтобы текстовая ветвь точнее описывала сигналы подлинности. Кроме того, в работе создается более тонкозернистый benchmark, ориентированный на атрибуцию и детекцию при новых diffusion- и flow-based генераторах, что усиливает убедительность оценки.
Вывод по статье
Работа интересна тем, что добавляет в инструментарий обнаружения deepfake новую анатомическую подсказку — согласованность взгляда, — вместо бесконечного повторения текстуроцентричного подхода. Именно этот сдвиг помогает объяснить, почему метод лучше работает на невидимых генераторах, а не только на знакомых датасетах. Для тех, кто следит за защитой от подделки лиц, GazeCLIP — сильный пример того, как мультимодальное рассуждение становится практически полезным.