← Volver al Blog

Radar de investigaciónDetección de deepfakesarXivJunio de 2026

Radar mensual de arXiv

Detección de deepfakes en junio de 2026: localización lip-sync, forense POI y calibración justa

La investigación se mueve de un clasificador universal a evidencia operativa: localizar ediciones de boca, comparar referencias de identidad y calibrar equidad.

Lo que señala este mes

El mes apunta a defensa por capas: localizar manipulaciones pequeñas, usar referencias de identidad y calibrar decisiones para no concentrar errores.

Artículo 012026-06-22cs.CV

LoCC: detección y localización de deepfakes lip-sync mediante consistencia contrafactual de frames

Autores e instituciones

Soumyya Kanti Datta

University at Buffalo, State University of New York

Shan Jia

University at Buffalo, State University of New York

Siwei Lyu

University at Buffalo, State University of New York

Qué problema resuelve

Resuelve la necesidad de localización fina: revisores necesitan saber qué frames o segmentos son falsos, no solo un label de video.

Resultado clave

Reportan rendimiento superior en LAV-DF, AVDF1M, FakeAVCeleb y KODF, con generalización entre compresiones y datasets.

Resumen

LoCC detecta lip-sync deepfakes comparando cada frame de boca con una reconstrucción contrafactual de sus vecinos temporales. Usa difusión, teacher-student y agregación transformer.

Punto de partida

Las manipulaciones lip-sync son difíciles porque cambian solo la boca y pueden durar poco; detectores holísticos pierden inconsistencias locales.

Método

Entrena difusión en frames reales de boca para predecir el frame central. El teacher aprende inconsistencia segmental; el student la destila a predicciones por frame y un transformer agrega contexto.

Conclusión del artículo

LoCC aporta evidencia localizada, no solo un score opaco. El enfoque contrafactual encaja con videos cortos o parcialmente editados donde pocas bocas contienen la señal.

Artículo 022026-06-18cs.CV

CUPID: reconstrucción de mapas de textura UV para detección interpretable de deepfakes de personas de interés

Autores e instituciones

Giovanni Affatato

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Sara Mandelli

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Edoardo Daniele Cannas

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Paolo Bestagini

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Stefano Tubaro

Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB), Politecnico di Milano, Milan, Italy

Qué problema resuelve

Aborda tres límites prácticos: robustez a postprocesado, inferencia eficiente y explicación de regiones faciales desviadas.

Resultado clave

En cuatro datasets reporta SOTA en la mayoría, mejor robustez a downscaling/compresión e inferencia mucho más rápida.

Resumen

CUPID compara un video consulta con referencias limpias de la misma identidad. Usa mapas UV de reconstrucciones 3D y un autoencoder enmascarado para comparación de identidad e interpretación por residuales.

Punto de partida

Figuras públicas y ejecutivos sufren deepfakes dirigidos; investigadores suelen tener referencias reales, que un detector POI aprovecha mejor que uno genérico.

Método

En entrenamiento usa solo videos reales de muchos sujetos, sin fakes ni POI objetivo. En inferencia compara embeddings UV con referencias POI y muestra mapas residuales.

Conclusión del artículo

CUPID resulta atractivo para empresa y sector público porque da decisión y residual interpretable. Ayuda cuando un caso importante exige revisión humana y explicación.

Artículo 032026-06-03cs.LG

Hacia una detección de deepfakes calibrada, justa y precisa

Autores e instituciones

Ryan Brown

University of Oxford

Chris Russell

University of Oxford

Qué problema resuelve

Aborda la fricción de despliegue: muchos métodos requieren atributos demográficos, reentrenamiento o pérdida de accuracy.

Resultado clave

En pruebas in-domain y cross-dataset reduce brechas FPR/TPR, mejora accuracy del peor grupo y mantiene o mejora accuracy global con overhead mínimo.

Resumen

Presenta Face-Fairness, postprocesado plug-in para mitigar sesgo en detectores. Face-Feature Tuning remapea logits con un calibrador ligero condicionado por embeddings faciales congelados, sin labels demográficos ni reentrenamiento.

Punto de partida

Compradores necesitan scores calibrados y errores justos, no solo accuracy global, porque falsos positivos y misses pueden concentrarse por grupo.

Método

Incluye FFT sin labels, FF-Max con labels de grupo y FF-Discover con clusters de embeddings. Todos funcionan después del detector y no cambian el modelo base.

Conclusión del artículo

Face-Fairness encaja con compras reales: el modelo base puede ser cerrado o caro de reentrenar. Un calibrador postprocesado sin labels de identidad facilita gobernanza, auditorías y despliegue seguro.