GazeCLIP: CLIP guiado pelo olhar com prompt linguístico fino e adaptativamente aprimorado para atribuição e detecção de deepfakes
Autores e instituições
Yaning Zhang
Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China
Linlin Shen
Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China
National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China
Shenzhen Institute of Artificial Intelligence and Robotics for Society, China
Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China
Zitong Yu
School of Computing and Information Technology, Great Bay University, China
Chunjie Ma
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Zan Gao
Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China
Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China
Que problema resolve
O GazeCLIP mira tanto atribuição quanto detecção e pergunta se pistas sensíveis ao olhar podem melhorar a generalização para métodos de falsificação não vistos.
Resultado-chave
No benchmark dos autores, o método supera o estado da arte anterior em cenários com geradores não vistos, com ganho de 6.56% em acurácia média para atribuição e de 5.32% em AUC para detecção.
Resumo
Os trabalhos atuais de atribuição ou detecção de deepfakes tendem a apresentar fraca generalização para novos métodos generativos devido à exploração limitada apenas das modalidades visuais. Em geral, eles avaliam de forma grosseira o desempenho de atribuição ou detecção dos modelos em geradores avançados não vistos e deixam de considerar a sinergia entre as duas tarefas. Para isso, propomos um novo CLIP guiado por olhar, com prompts linguísticos finos e adaptativamente aprimorados, para atribuição e detecção finas de deepfakes (DFAD). Especificamente, conduzimos um novo benchmark detalhado para avaliar o desempenho de DFAD de redes em novos geradores, como modelos de difusão e de fluxo. Além disso, introduzimos um modelo sensível ao olhar baseado em CLIP, concebido para melhorar a generalização a ataques inéditos de falsificação facial. Com base na nova observação de que existem diferenças de distribuição significativas entre vetores de olhar autênticos e forjados, e que a preservação do olhar-alvo em imagens faciais geradas por GAN e difusão varia significativamente, projetamos um codificador de percepção visual para explorar essas diferenças inerentes de olhar e minerar embeddings globais de falsificação nos domínios da aparência e do olhar. Propomos um gaze-aware image encoder (GIE) que funde prompts de olhar forjado extraídos por um codificador de olhar com embeddings comuns de imagens forjadas para capturar padrões gerais de atribuição, permitindo transformar as características em um espaço de características DFAD mais estável e compartilhado. Construímos um language refinement encoder (LRE) para gerar embeddings linguísticos dinamicamente aprimorados por meio de um seletor de palavras com reforço adaptativo, possibilitando um pareamento visão-linguagem preciso. Experimentos extensivos em nosso benchmark mostram que nosso modelo supera o estado da arte em 6.56% de ACC e 5.32% de AUC em desempenho médio sob as configurações de atribuição e detecção, respectivamente. Os códigos estarão disponíveis no GitHub.
Ponto de partida da pesquisa
Detectores de deepfakes frequentemente se concentram demais na aparência visual e falham fortemente quando um novo gerador produz artefatos diferentes dos vistos no treinamento. Os autores partem da observação de que rostos forjados também exibem diferenças no comportamento do olhar e na preservação do olhar, especialmente entre pipelines baseados em GAN e difusão, e que esse sinal ainda não foi plenamente explorado. A motivação é melhorar ao mesmo tempo a atribuição e a detecção de deepfakes de forma que generalize para geradores não vistos, em vez de colapsar no próximo lançamento de modelo.
Método
O GazeCLIP constrói um framework no estilo CLIP sensível ao olhar, no qual pistas visuais de falsificação e prompts baseados em olhar são fundidos em um espaço de embeddings forenses mais estável. O método introduz um gaze-aware image encoder e um language refinement encoder com seleção adaptativa de palavras, tornando o ramo textual mais preciso ao descrever sinais de autenticidade. O artigo também constrói um benchmark mais refinado, focado em atribuição e detecção sob novos geradores baseados em difusão e flow, fortalecendo a credibilidade da avaliação.
Síntese do artigo
O artigo é convincente porque adiciona uma nova pista anatômica — a consistência do olhar — à caixa de ferramentas da detecção de deepfakes, em vez de reciclar indefinidamente o mesmo paradigma centrado em textura. Essa mudança ajuda a explicar por que o método melhora em geradores não vistos, e não apenas em datasets familiares. Para quem acompanha defesa contra falsificação facial, o GazeCLIP é um bom exemplo de como o raciocínio multimodal pode se tornar realmente útil.