← Назад в Блог
Исследовательский радарОбнаружение deepfakearXivМай 2026

Ежемесячный радар arXiv

Deepfake detection в мае 2026: легкие video cues, пределы foundation models и localization для diffusion faces

Работы сосредоточены на меньших моделях, ясных границах generalization и localization для diffusion-era faces.

Что показывает этот месяц

Главный сигнал: защита зависит не только от больших detectors, но и от targeted cues и честных audits.

Статья 012026-05-27cs.CV

Легковесное слияние взаимодополняющих признаков для устойчивого обнаружения подделок лиц в видео

Авторы и организации

Sunghwan Baek

Carnegie Mellon University, USA

Tariq Anwaar

Carnegie Mellon University, USA

Karanveer Singh

Carnegie Mellon University, USA

Rita Singh

Carnegie Mellon University, USA

Какую задачу решает

Ключевая задача — устранить ограничения вокруг video face forgery detection, lightweight forensics, frequency cues в deepfake detection так, чтобы решение можно было оценивать для реального внедрения.

Ключевой результат

Результаты показывают улучшения точности, эффективности, обобщения или объяснимости и снижают риск внедрения.

Аннотация

Работа «Lightweight Complementary-Cue Fusion for Robust Video Face Forgery Detection» рассматривает video face forgery detection, lightweight forensics, frequency cues в условиях, близких к внедрению. Результаты помогают оценить точность, эффективность, обобщение и надежность.

Отправная точка исследования

Мотивация в том, что video face forgery detection, lightweight forensics, frequency cues в области deepfake detection напрямую влияет на приватность, стоимость, устойчивость или пользовательский опыт.

Метод

Подход в «Lightweight Complementary-Cue Fusion for Robust Video Face Forgery Detection» сочетает дизайн модели, стратегию обучения или системную оптимизацию, приближая исследование к продуктовой возможности.

Вывод по статье

Главный вывод в том, что детекция deepfake не всегда требует более крупного backbone, если форензические признаки выбраны и объединены правильно. Комбинация низкочастотных wavelet-denoised признаков с фазовыми или текстурными сигналами через крошечный блок слияния дает экономичный вариант для команд, которым нужна более широкая устойчивость на бенчмарках без добавления данных, аугментаций или тяжелого инференса.

Статья 022026-05-24cs.CV

Пределы междоменного обобщения визуальных фундаментальных моделей в обнаружении лицевых дипфейков

Авторы и организации

Ibrahim Delibasoglu

Department of Software Engineering, Faculty of Computer and Information Sciences, Sakarya University, Sakarya, Türkiye

Какую задачу решает

Ключевая задача — устранить ограничения вокруг foundation models, facial deepfake detection, cross-domain generalization в deepfake detection так, чтобы решение можно было оценивать для реального внедрения.

Ключевой результат

Результаты показывают улучшения точности, эффективности, обобщения или объяснимости и снижают риск внедрения.

Аннотация

Работа «Cross-Domain Generalization Limits of Vision Foundation Models in Facial Deepfake Detection» рассматривает foundation models, facial deepfake detection, cross-domain generalization в условиях, близких к внедрению. Результаты помогают оценить точность, эффективность, обобщение и надежность.

Отправная точка исследования

Мотивация в том, что foundation models, facial deepfake detection, cross-domain generalization в области deepfake detection напрямую влияет на приватность, стоимость, устойчивость или пользовательский опыт.

Метод

Подход в «Cross-Domain Generalization Limits of Vision Foundation Models in Facial Deepfake Detection» сочетает дизайн модели, стратегию обучения или системную оптимизацию, приближая исследование к продуктовой возможности.

Вывод по статье

Работа предостерегает от предположения, что замороженные визуальные фундаментальные модели автоматически решают проблему обобщения deepfake-детекции. Междоменные тесты показывают, что полная синтезация лица может быть проще локальных правок, поэтому закупка и выбор модели должны включать стресс-тесты на смену генератора и типа манипуляции, а не только средние бенчмарк-оценки.

Статья 032026-05-11cs.CV

MFVLR: многодоменная тонкая визуально-языковая реконструкция для обобщаемого обнаружения и локализации диффузионных подделок лиц

Авторы и организации

Yaning Zhang

Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), Jinan, China

Tianyi Wang

School of Computing, National University of Singapore, Singapore

Zan Gao

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), Jinan, China

Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, Tianjin, China

Yibo Zhao

Key Laboratory of Computer Vision and Systems, Ministry of Education, Tianjin University of Technology, Tianjin, China

Chunjie Ma

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), Jinan, China

Meng Wang

School of Computer Science and Information Engineering, Hefei University of Technology, Hefei, China

Какую задачу решает

Ключевая задача — устранить ограничения вокруг diffusion face forgery, vision-language forensics, forgery localization в deepfake detection так, чтобы решение можно было оценивать для реального внедрения.

Ключевой результат

Результаты показывают улучшения точности, эффективности, обобщения или объяснимости и снижают риск внедрения.

Аннотация

Работа «MFVLR: Multi-domain Fine-grained Vision-Language Reconstruction for Generalizable Diffusion Face Forgery Detection and Localization» рассматривает diffusion face forgery, vision-language forensics, forgery localization в условиях, близких к внедрению. Результаты помогают оценить точность, эффективность, обобщение и надежность.

Отправная точка исследования

Мотивация в том, что diffusion face forgery, vision-language forensics, forgery localization в области deepfake detection напрямую влияет на приватность, стоимость, устойчивость или пользовательский опыт.

Метод

Подход в «MFVLR: Multi-domain Fine-grained Vision-Language Reconstruction for Generalizable Diffusion Face Forgery Detection and Localization» сочетает дизайн модели, стратегию обучения или системную оптимизацию, приближая исследование к продуктовой возможности.

Вывод по статье

MFVLR важен тем, что продвигает форензику лиц, созданных диффузионными моделями, от простого ответа да/нет на уровне изображения к локализации и междоменному объяснению. Сочетание тонкой языковой реконструкции, визуальных остаточных доменов и декодера для локализации поддельных областей помогает в процессах проверки, где нужно знать не только является ли изображение фальшивым, но и где находятся признаки.