GazeCLIP: CLIP guiado por la mirada con prompt lingüístico fino y adaptativamente reforzado para atribución y detección de deepfakes
Autores e instituciones
Yaning Zhang
Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China
Linlin Shen
Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China
National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China
Shenzhen Institute of Artificial Intelligence and Robotics for Society, China
Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China
Zitong Yu
School of Computing and Information Technology, Great Bay University, China
Chunjie Ma
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Zan Gao
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China
Qué problema resuelve
GazeCLIP aborda tanto la atribución como la detección y pregunta si las señales conscientes de la mirada pueden mejorar la generalización frente a métodos de falsificación no vistos.
Resultado clave
En el benchmark de los autores, el método supera al estado del arte previo en escenarios con generadores no vistos con una mejora de 6.56% en exactitud media para atribución y de 5.32% AUC para detección.
Resumen
Los trabajos actuales sobre atribución o detección de deepfakes tienden a mostrar una pobre generalización frente a métodos generativos novedosos debido a la exploración limitada de modalidades visuales por sí solas. Suelen evaluar de manera burda el rendimiento de atribución o detección de los modelos sobre generadores avanzados no vistos y no consideran la sinergia entre ambas tareas. Para ello, proponemos un novedoso CLIP guiado por la mirada con prompts lingüísticos finos mejorados de forma adaptativa para atribución y detección fina de deepfakes (DFAD). En concreto, desarrollamos un benchmark nuevo y de grano fino para evaluar el rendimiento DFAD de redes sobre generadores novedosos como modelos de difusión y flow. Además, introducimos un modelo consciente de la mirada basado en CLIP, concebido para mejorar la generalización frente a ataques de falsificación facial no vistos. A partir de la observación novedosa de que existen diferencias significativas de distribución entre vectores de mirada prístinos y falsificados, y de que la preservación de la mirada objetivo en imágenes faciales generadas por GAN y difusión varía de forma notable, diseñamos un codificador de percepción visual que emplea las diferencias inherentes de mirada para extraer embeddings globales de falsificación a través de los dominios de apariencia y mirada. Proponemos un gaze-aware image encoder (GIE) que fusiona prompts de mirada de falsificación extraídos mediante un gaze encoder con embeddings comunes de imágenes falsificadas para capturar patrones generales de atribución, permitiendo transformar las características a un espacio de características DFAD más estable y compartido. Construimos un language refinement encoder (LRE) para generar embeddings lingüísticos mejorados dinámicamente mediante un selector de palabras adaptativamente reforzado para un emparejamiento visión-lenguaje preciso. Amplios experimentos en nuestro benchmark muestran que nuestro modelo supera al state of the art en 6.56% ACC y 5.32% AUC de rendimiento promedio bajo las configuraciones de atribución y detección, respectivamente. El código estará disponible en GitHub.
Punto de partida
Los detectores de deepfakes suelen concentrarse demasiado en la apariencia visual y fallan con fuerza cuando un nuevo generador produce artefactos distintos de los del conjunto de entrenamiento. Los autores parten de la observación de que los rostros falsificados también muestran diferencias en el comportamiento de la mirada y en su preservación, especialmente entre pipelines basados en GAN y en difusión, y que esta señal no se ha explotado a fondo. Su motivación es mejorar tanto la atribución como la detección de deepfakes de una forma que generalice a generadores no vistos en lugar de derrumbarse con la siguiente generación de modelos.
Método
GazeCLIP construye un marco tipo CLIP sensible a la mirada en el que las pistas visuales de falsificación y los prompts basados en la mirada se fusionan en un espacio de embeddings forenses más estable. El método introduce un gaze-aware image encoder y un language refinement encoder con selección adaptativa de palabras para que la rama textual describa con más precisión las señales de autenticidad. Además, el artículo construye un benchmark más fino centrado en atribución y detección bajo generadores novedosos de difusión y flow, lo que refuerza la credibilidad de su evaluación.
Conclusión del artículo
El artículo resulta convincente porque añade una nueva pista anatómica —la consistencia de la mirada— al repertorio de la detección de deepfakes, en lugar de reciclar sin fin el paradigma centrado en texturas. Ese cambio ayuda a explicar por qué el método mejora con generadores no vistos y no solo en conjuntos conocidos. Para quienes siguen la defensa frente a falsificación facial, GazeCLIP es un buen ejemplo de cómo el razonamiento multimodal puede volverse realmente útil.