Radar de investigaciónDetección de deepfakesarXivMayo de 2026

Radar mensual de arXiv

Detección de deepfakes en mayo de 2026: pistas ligeras de video, límites de foundation models y localización de rostros diffusion

Los trabajos se centran en modelos más pequeños, límites de generalización claros y localización en la era diffusion.

Lo que señala este mes

La señal principal: mejor defensa no viene solo de detectores mayores, sino de cues dirigidas y auditorías honestas.

Artículo 012026-05-27cs.CV

Fusión ligera de señales complementarias para detección robusta de falsificaciones faciales en video

arXiv PDF

Autores e instituciones

Sunghwan Baek

Carnegie Mellon University, USA

Tariq Anwaar

Carnegie Mellon University, USA

Karanveer Singh

Carnegie Mellon University, USA

Rita Singh

Carnegie Mellon University, USA

Qué problema resuelve

El problema central es resolver cuellos de botella de video face forgery detection, lightweight forensics, frequency cues en detección de deepfakes de forma evaluable para despliegue real.

Resultado clave

Los resultados muestran mejoras en precisión, eficiencia, generalización o explicabilidad, reduciendo riesgo de despliegue.

Resumen

Este trabajo aborda «Lightweight Complementary-Cue Fusion for Robust Video Face Forgery Detection» y estudia video face forgery detection, lightweight forensics, frequency cues bajo restricciones cercanas a producción. Sus resultados ayudan a evaluar precisión, eficiencia, generalización y fiabilidad.

Punto de partida

La motivación es que video face forgery detection, lightweight forensics, frequency cues en detección de deepfakes afecta privacidad, coste, robustez o experiencia de usuario.

Método

El enfoque de «Lightweight Complementary-Cue Fusion for Robust Video Face Forgery Detection» combina diseño de modelo, estrategia de entrenamiento u optimización de sistema para acercar la investigación a una capacidad desplegable.

Conclusión del artículo

La lección principal es que la detección de deepfakes no siempre necesita un backbone mayor si las señales forenses se eligen y fusionan bien. Al combinar rasgos de baja frecuencia denoised por wavelet con señales de fase o textura mediante un bloque de fusión mínimo, el trabajo ofrece una alternativa consciente del coste para equipos que buscan robustez en más benchmarks sin añadir datos, augmentación ni inferencia pesada.

Artículo 022026-05-24cs.CV

Límites de generalización entre dominios de los modelos visuales fundacionales en detección de deepfakes faciales

arXiv PDF

Autores e instituciones

Ibrahim Delibasoglu

Department of Software Engineering, Faculty of Computer and Information Sciences, Sakarya University, Sakarya, Türkiye

Qué problema resuelve

El problema central es resolver cuellos de botella de foundation models, facial deepfake detection, cross-domain generalization en detección de deepfakes de forma evaluable para despliegue real.

Resultado clave

Los resultados muestran mejoras en precisión, eficiencia, generalización o explicabilidad, reduciendo riesgo de despliegue.

Resumen

Este trabajo aborda «Cross-Domain Generalization Limits of Vision Foundation Models in Facial Deepfake Detection» y estudia foundation models, facial deepfake detection, cross-domain generalization bajo restricciones cercanas a producción. Sus resultados ayudan a evaluar precisión, eficiencia, generalización y fiabilidad.

Punto de partida

La motivación es que foundation models, facial deepfake detection, cross-domain generalization en detección de deepfakes afecta privacidad, coste, robustez o experiencia de usuario.

Método

El enfoque de «Cross-Domain Generalization Limits of Vision Foundation Models in Facial Deepfake Detection» combina diseño de modelo, estrategia de entrenamiento u optimización de sistema para acercar la investigación a una capacidad desplegable.

Conclusión del artículo

El artículo advierte contra asumir que los modelos visuales fundacionales congelados resuelven automáticamente la generalización en deepfakes. Las pruebas entre dominios muestran que la síntesis de cara completa puede ser más fácil que las ediciones localizadas, por lo que compra y selección de modelos deberían incluir estrés por cambio de generador y tipo de manipulación, no solo puntuaciones medias.

Artículo 032026-05-11cs.CV

MFVLR: reconstrucción visión-lenguaje fina y multidominio para detección y localización generalizables de falsificaciones faciales por difusión

arXiv PDF

Autores e instituciones

Yaning Zhang

Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), Jinan, China

Tianyi Wang

School of Computing, National University of Singapore, Singapore

Zan Gao

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), Jinan, China

Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, Tianjin, China

Yibo Zhao

Key Laboratory of Computer Vision and Systems, Ministry of Education, Tianjin University of Technology, Tianjin, China

Chunjie Ma

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), Jinan, China

Meng Wang

School of Computer Science and Information Engineering, Hefei University of Technology, Hefei, China

Qué problema resuelve

El problema central es resolver cuellos de botella de diffusion face forgery, vision-language forensics, forgery localization en detección de deepfakes de forma evaluable para despliegue real.

Resultado clave

Los resultados muestran mejoras en precisión, eficiencia, generalización o explicabilidad, reduciendo riesgo de despliegue.

Resumen

Este trabajo aborda «MFVLR: Multi-domain Fine-grained Vision-Language Reconstruction for Generalizable Diffusion Face Forgery Detection and Localization» y estudia diffusion face forgery, vision-language forensics, forgery localization bajo restricciones cercanas a producción. Sus resultados ayudan a evaluar precisión, eficiencia, generalización y fiabilidad.

Punto de partida

La motivación es que diffusion face forgery, vision-language forensics, forgery localization en detección de deepfakes afecta privacidad, coste, robustez o experiencia de usuario.

Método

El enfoque de «MFVLR: Multi-domain Fine-grained Vision-Language Reconstruction for Generalizable Diffusion Face Forgery Detection and Localization» combina diseño de modelo, estrategia de entrenamiento u optimización de sistema para acercar la investigación a una capacidad desplegable.

Conclusión del artículo

MFVLR es relevante porque lleva la forense de rostros por difusión más allá de la detección sí/no a nivel de imagen, hacia localización y explicación entre dominios. Al combinar reconstrucción lingüística fina, dominios visuales residuales y un decodificador para localizar regiones falsificadas, puede apoyar flujos de revisión donde se necesita saber no solo si la imagen es falsa, sino dónde aparece la evidencia.