Radar de InvestigaciónDetección de DeepfakesarXivMarzo de 2026

Radar mensual de arXiv

Artículos de marzo de 2026 sobre detección de deepfakes: mirada, partes faciales, razonamiento estructurado y semántica VLM

La investigación sobre detección de deepfakes en marzo de 2026 está yendo más allá de la simple búsqueda de artefactos. Los trabajos más sólidos ahora combinan señales anatómicas, razonamiento a nivel de partes y semántica visión-lenguaje para generalizar mejor a nuevos generadores. Esto hace que el tema sea especialmente valioso para SEO porque cubre tanto intención de búsqueda académica como comercial en torno a deepfake detection, face forgery detection y confianza en medios generados por IA.

Lo que señala este mes

La tendencia más creíble de marzo de 2026 es la especialización forense: en lugar de confiar en que un backbone genérico detecte todo, los mejores trabajos modelan explícitamente la mirada, las partes faciales o el razonamiento por etapas para capturar evidencia de forma más controlable.

Artículo 012026-03-31cs.CV

GazeCLIP: CLIP guiado por la mirada con prompt lingüístico fino y adaptativamente reforzado para atribución y detección de deepfakes

arXiv PDF

Autores e instituciones

Yaning Zhang

Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China

Linlin Shen

Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China

National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China

Shenzhen Institute of Artificial Intelligence and Robotics for Society, China

Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China

Zitong Yu

School of Computing and Information Technology, Great Bay University, China

Chunjie Ma

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Zan Gao

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China

Qué problema resuelve

GazeCLIP aborda tanto la atribución como la detección y pregunta si las señales conscientes de la mirada pueden mejorar la generalización frente a métodos de falsificación no vistos.

Resultado clave

En el benchmark de los autores, el método supera al estado del arte previo en escenarios con generadores no vistos con una mejora de 6.56% en exactitud media para atribución y de 5.32% AUC para detección.

Resumen

Los trabajos actuales sobre atribución o detección de deepfakes tienden a mostrar una pobre generalización frente a métodos generativos novedosos debido a la exploración limitada de modalidades visuales por sí solas. Suelen evaluar de manera burda el rendimiento de atribución o detección de los modelos sobre generadores avanzados no vistos y no consideran la sinergia entre ambas tareas. Para ello, proponemos un novedoso CLIP guiado por la mirada con prompts lingüísticos finos mejorados de forma adaptativa para atribución y detección fina de deepfakes (DFAD). En concreto, desarrollamos un benchmark nuevo y de grano fino para evaluar el rendimiento DFAD de redes sobre generadores novedosos como modelos de difusión y flow. Además, introducimos un modelo consciente de la mirada basado en CLIP, concebido para mejorar la generalización frente a ataques de falsificación facial no vistos. A partir de la observación novedosa de que existen diferencias significativas de distribución entre vectores de mirada prístinos y falsificados, y de que la preservación de la mirada objetivo en imágenes faciales generadas por GAN y difusión varía de forma notable, diseñamos un codificador de percepción visual que emplea las diferencias inherentes de mirada para extraer embeddings globales de falsificación a través de los dominios de apariencia y mirada. Proponemos un gaze-aware image encoder (GIE) que fusiona prompts de mirada de falsificación extraídos mediante un gaze encoder con embeddings comunes de imágenes falsificadas para capturar patrones generales de atribución, permitiendo transformar las características a un espacio de características DFAD más estable y compartido. Construimos un language refinement encoder (LRE) para generar embeddings lingüísticos mejorados dinámicamente mediante un selector de palabras adaptativamente reforzado para un emparejamiento visión-lenguaje preciso. Amplios experimentos en nuestro benchmark muestran que nuestro modelo supera al state of the art en 6.56% ACC y 5.32% AUC de rendimiento promedio bajo las configuraciones de atribución y detección, respectivamente. El código estará disponible en GitHub.

Punto de partida

Los detectores de deepfakes suelen concentrarse demasiado en la apariencia visual y fallan con fuerza cuando un nuevo generador produce artefactos distintos de los del conjunto de entrenamiento. Los autores parten de la observación de que los rostros falsificados también muestran diferencias en el comportamiento de la mirada y en su preservación, especialmente entre pipelines basados en GAN y en difusión, y que esta señal no se ha explotado a fondo. Su motivación es mejorar tanto la atribución como la detección de deepfakes de una forma que generalice a generadores no vistos en lugar de derrumbarse con la siguiente generación de modelos.

Método

GazeCLIP construye un marco tipo CLIP sensible a la mirada en el que las pistas visuales de falsificación y los prompts basados en la mirada se fusionan en un espacio de embeddings forenses más estable. El método introduce un gaze-aware image encoder y un language refinement encoder con selección adaptativa de palabras para que la rama textual describa con más precisión las señales de autenticidad. Además, el artículo construye un benchmark más fino centrado en atribución y detección bajo generadores novedosos de difusión y flow, lo que refuerza la credibilidad de su evaluación.

Conclusión del artículo

El artículo resulta convincente porque añade una nueva pista anatómica —la consistencia de la mirada— al repertorio de la detección de deepfakes, en lugar de reciclar sin fin el paradigma centrado en texturas. Ese cambio ayuda a explicar por qué el método mejora con generadores no vistos y no solo en conjuntos conocidos. Para quienes siguen la defensa frente a falsificación facial, GazeCLIP es un buen ejemplo de cómo el razonamiento multimodal puede volverse realmente útil.

Artículo 022026-03-27cs.CV

Face2Parts: exploración de dependencias faciales interregionales de grueso a fino para detección generalizada de deepfakes

arXiv PDF

Autores e instituciones

Kutub Uddin

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Nusrat Tasnim

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Byung Tae Oh

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Qué problema resuelve

Face2Parts está diseñado para capturar dependencias de grueso a fino entre el fotograma completo, el recorte facial y subregiones clave como ojos, labios y nariz.

Resultado clave

El artículo informa una AUC media sólida en un amplio conjunto de benchmarks, incluido 98.42% en FaceForensics++, además de un rendimiento competitivo cross-dataset en variantes de DFDC, DFD y CDF.

Resumen

Los datos multimedia, en particular imágenes y videos, son fundamentales para diversas aplicaciones, incluidas vigilancia, interacción visual, biometría, recopilación de evidencias y publicidad. Sin embargo, falsificadores aficionados o expertos pueden simularlos para crear deepfakes, a menudo con fines difamatorios. Para afrontar este desafío, se han desarrollado varios métodos forenses destinados a garantizar la autenticidad del contenido. La eficacia de estos métodos depende de su foco, y surgen desafíos debido a la naturaleza diversa de las manipulaciones. En este artículo analizamos métodos forenses existentes y observamos que cada uno tiene fortalezas únicas para detectar rastros de deepfake al centrarse en regiones faciales específicas, como el frame, la cara, los labios, los ojos o la nariz. A partir de estas observaciones, proponemos un nuevo enfoque híbrido llamado Face2Parts basado en representación jerárquica de características ($HFR$) que aprovecha información de grueso a fino para mejorar la detección de deepfakes. El método propuesto consiste en extraer características del frame, de la cara y de regiones faciales clave (es decir, labios, ojos y nariz) por separado para explorar las relaciones de grueso a fino. Este enfoque nos permite capturar interdependencias entre regiones faciales mediante un mecanismo de channel-attention y deep triplet learning. Evaluamos el método propuesto en conjuntos de datos benchmark de deepfakes en configuraciones intra-dataset, inter-dataset e inter-manipulation. El método propuesto alcanza una AUC promedio de 98.42% en FF++, 79.80% en CDF1, 85.34% en CDF2, 89.41% en DFD, 84.07% en DFDC, 95.62% en DTIM, 80.76% en PDD y 100% en WLDR, respectivamente. Los resultados demuestran que nuestro enfoque generaliza de manera efectiva y logra un rendimiento prometedor que supera a los métodos existentes.

Punto de partida

Los métodos de detección de deepfakes suelen destacar por especialización: un modelo funciona bien en los bordes faciales, otro en la región de los ojos y otro en los artefactos de la boca. Los autores parten de la idea de que esas fortalezas no deberían competir, sino integrarse, porque las falsificaciones dejan evidencia en distintas escalas y en distintas partes de la imagen. Su objetivo es diseñar un detector que capture explícitamente esa diversidad de grueso a fino, en lugar de confiar en que un único mapa de características monolítico lo descubra todo.

Método

Face2Parts extrae características del fotograma completo, del recorte facial y de varias regiones faciales clave como labios, ojos y nariz, y modela sus interacciones mediante channel attention y deep triplet learning. Esta representación jerárquica de características busca capturar tanto el contexto global como pequeños artefactos locales, aprendiendo además cómo esas regiones se refuerzan entre sí. La evaluación cubre escenarios intra-dataset, cross-dataset e inter-manipulation, algo crítico porque muchos detectores fallan precisamente cuando cambia el estilo de manipulación.

Conclusión del artículo

Face2Parts resulta útil porque formaliza un flujo forense muy intuitivo: primero inspeccionar la imagen completa, luego acercarse al rostro y después profundizar en las partes más sospechosas. Los buenos resultados en benchmarks sugieren que este proceso de inspección por capas no solo es interpretable, sino también eficaz. Para los profesionales, recuerda que la detección de deepfakes todavía puede mejorar estructurando mejor la evidencia, no solo aumentando el tamaño del modelo.

Artículo 032026-03-23cs.CV

VIGIL: razonamiento estructurado con anclaje en partes para detección generalizable de deepfakes

arXiv PDF

Autores e instituciones

Xinghan Li

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Junhao Xu

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Jingjing Chen

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Qué problema resuelve

VIGIL separa la planificación del examen para que el detector decida primero qué partes merecen inspección antes de inyectar evidencia a nivel de partes.

Resultado clave

En OmniFake y en pruebas cross-dataset, los autores informan una generalización más fuerte que la de detectores expertos y también que la de enfoques previos basados en MLLM.

Resumen

Los multimodal large language models (MLLMs) ofrecen una vía prometedora hacia la detección interpretable de deepfakes mediante la generación de explicaciones textuales. Sin embargo, el proceso de razonamiento de los métodos actuales basados en MLLM combina la generación de evidencia y la localización de la manipulación en un único paso. Esta combinación difumina la frontera entre observaciones fieles y explicaciones alucinadas, lo que conduce a conclusiones poco fiables. A partir de ello, presentamos VIGIL, un marco forense estructurado centrado en partes e inspirado en la práctica forense experta mediante una canalización plan-then-examine: el modelo primero planifica qué partes faciales merecen inspección en función de pistas visuales globales y después examina cada parte con evidencia forense obtenida de manera independiente. Un mecanismo de inyección controlado por etapas suministra evidencia forense a nivel de parte únicamente durante el examen, garantizando que la selección de partes siga estando guiada por la propia percepción del modelo y no sesgada por señales externas. Además, proponemos un paradigma progresivo de entrenamiento en tres etapas cuya fase de reinforcement learning emplea recompensas part-aware para imponer validez anatómica y coherencia entre evidencia y conclusión. Para posibilitar una evaluación rigurosa de la generalización, construimos OmniFake, un benchmark jerárquico de 5 niveles en el que el modelo, entrenado solo con tres generadores fundacionales, se evalúa progresivamente hasta llegar a datos in-the-wild de redes sociales. Amplios experimentos en OmniFake y evaluaciones cross-dataset demuestran que VIGIL supera de forma consistente tanto a detectores expertos como a métodos contemporáneos basados en MLLM en todos los niveles de generalización.

Punto de partida

Los detectores de deepfakes basados en MLLM prometen explicabilidad, pero muchos difuminan dos pasos muy distintos: decidir qué inspeccionar y afirmar qué significa la evidencia. Esa fusión dificulta detectar alucinaciones porque el modelo inventa a la vez la observación y la conclusión. El trabajo está motivado por la necesidad de separar esas etapas para que el razonamiento sobre deepfakes se parezca más a un análisis forense y menos a una improvisación fluida.

Método

VIGIL utiliza una canalización plan-then-examine en la que el sistema selecciona primero qué partes faciales merece la pena investigar y solo después inyecta evidencia forense específica de cada región en el proceso de razonamiento. El modelo también usa entrega de evidencia controlada por etapas y entrenamiento progresivo con recompensas de reinforcement learning sensibles a las partes, para que las explicaciones permanezcan ligadas a una anatomía plausible y a cadenas de evidencia coherentes. Para poner a prueba la generalización con más rigor, el artículo introduce además OmniFake, un benchmark de cinco niveles que se expande desde generadores fundacionales hasta datos in-the-wild de redes sociales.

Conclusión del artículo

La mayor contribución de VIGIL es estructural: trata la detección explicable de deepfakes como un problema de diseño de pipeline y no solo de prompting. Al obligar al detector a elegir primero las partes y explicar después, el marco facilita distinguir evidencia fundamentada de narrativas alucinadas. Eso vuelve al artículo especialmente relevante para equipos que quieren detectores cuyas explicaciones puedan ser revisadas por personas y no solo admiradas en demos.

Artículo 042026-03-25cs.CV

Liberando la semántica visión-lenguaje para la detección de videos deepfake

arXiv PDF

Autores e instituciones

Jiawen Zhu

Singapore Management University, Singapore

Yunqi Miao

The University of Warwick, UK

Xueyi Zhang

Nanyang Technological University, Singapore

Jiankang Deng

Imperial College London, UK

Guansong Pang

Singapore Management University, Singapore

Qué problema resuelve

VLAForge pregunta cómo convertir la semántica cross-modal en una señal discriminativa más fuerte tanto para face swaps clásicos como para videos sintéticos recientes de rostro completo.

Resultado clave

El artículo informa mejoras sustanciales frente a métodos previos de detección de video deepfake tanto a nivel de frame como de video en benchmarks de face-swapping y generación de rostro completo.

Resumen

Estudios recientes sobre Deepfake Video Detection (DFD) han demostrado que los Vision-Language Models (VLMs) preentrenados, como CLIP, exhiben una fuerte capacidad de generalización para detectar artefactos a través de distintas identidades. Sin embargo, los enfoques existentes se centran en aprovechar únicamente características visuales, pasando por alto su fortaleza más distintiva -- la rica semántica visión-lenguaje incrustada en el espacio latente. Proponemos VLAForge, un novedoso marco de DFD que libera el potencial de dicha semántica cross-modal para mejorar la discriminabilidad del modelo en la detección de deepfakes. Este trabajo i) mejora la percepción visual del VLM mediante un ForgePerceiver, que actúa como un aprendiz independiente para capturar diversas y sutiles pistas de falsificación tanto de manera granular como holística, preservando al mismo tiempo el conocimiento preentrenado de Vision-Language Alignment (VLA), y ii) aporta una señal discriminativa complementaria -- el Identity-Aware VLA score, derivado de acoplar la semántica cross-modal con las pistas de falsificación aprendidas por ForgePerceiver. Cabe destacar que el VLA score se refuerza mediante text prompting informado por priors de identidad para capturar señales de autenticidad adaptadas a cada identidad, permitiendo así una semántica cross-modal más discriminativa. Experimentos exhaustivos en benchmarks de video DFD, incluyendo falsificaciones clásicas de face-swapping y falsificaciones recientes de full-face generation, demuestran que nuestro VLAForge supera sustancialmente a los métodos state-of-the-art tanto a nivel de frame como de video. El código está disponible en https://github.com/mala-lab/VLAForge.

Punto de partida

Los modelos visión-lenguaje como CLIP han mostrado una capacidad de transferencia impresionante, pero muchos métodos de detección de video deepfake todavía los usan como si solo fueran codificadores visuales más potentes. Los autores sostienen que eso desaprovecha la parte más distintiva del modelo: el propio espacio semántico cross-modal. Su motivación es convertir esa alineación semántica latente en una señal discriminativa para la detección de deepfakes, especialmente al generalizar entre face swaps clásicos y videos sintéticos recientes de rostro completo.

Método

El marco propuesto VLAForge añade un ForgePerceiver para extraer pistas sutiles de falsificación preservando al mismo tiempo la alineación visión-lenguaje original aprendida por el VLM preentrenado. Después introduce un identity-aware vision-language alignment score, respaldado por prompts informados por la identidad, para que el espacio cross-modal sea más sensible a desajustes de autenticidad. Esto permite que el detector combine percepción de artefactos y comparación semántica en vez de depender solo de una de ellas.

Conclusión del artículo

El mensaje central del artículo es que la detección de video deepfake puede ganar robustez real si usa bien la semántica visión-lenguaje en lugar de tratarla como un adorno. VLAForge muestra que la alineación semántica, los priors de identidad y la percepción específica de falsificación pueden colaborar en lugar de competir. Para quienes siguen el futuro de la defensa contra deepfakes, este trabajo marca un paso relevante hacia detectores más generalizables y mejor fundamentados conceptualmente.