Radar de PesquisaDetecção de DeepfakesarXivMarço de 2026

Radar mensal do arXiv

Artigos de março de 2026 sobre detecção de deepfakes: olhar, partes faciais, raciocínio estruturado e semântica VLM

A pesquisa em detecção de deepfakes em março de 2026 está indo além da simples identificação de artefatos. Os trabalhos mais fortes agora combinam pistas anatômicas, raciocínio em nível de partes e semântica visão-linguagem para generalizar melhor a novos geradores. Isso torna o tema especialmente valioso para SEO, porque cobre tanto intenção de busca acadêmica quanto comercial em torno de deepfake detection, face forgery detection e confiança em mídia gerada por IA.

O que este mês sinaliza

A tendência mais convincente de março de 2026 é a especialização forense: em vez de esperar que um backbone genérico perceba tudo, os melhores trabalhos modelam explicitamente o olhar, as partes faciais ou o raciocínio em etapas para capturar evidências de modo mais controlável.

Artigo 012026-03-31cs.CV

GazeCLIP: CLIP guiado pelo olhar com prompt linguístico fino e adaptativamente aprimorado para atribuição e detecção de deepfakes

arXiv PDF

Autores e instituições

Yaning Zhang

Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), China

Linlin Shen

Computer Vision Institute, College of Computer Science and Software Engineering, Shenzhen University, China

National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China

Shenzhen Institute of Artificial Intelligence and Robotics for Society, China

Guangdong Key Laboratory of Intelligent Information Processing, Shenzhen University, China

Zitong Yu

School of Computing and Information Technology, Great Bay University, China

Chunjie Ma

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Zan Gao

Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences), China

Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, China

Que problema resolve

O GazeCLIP mira tanto atribuição quanto detecção e pergunta se pistas sensíveis ao olhar podem melhorar a generalização para métodos de falsificação não vistos.

Resultado-chave

No benchmark dos autores, o método supera o estado da arte anterior em cenários com geradores não vistos, com ganho de 6.56% em acurácia média para atribuição e de 5.32% em AUC para detecção.

Resumo

Os trabalhos atuais de atribuição ou detecção de deepfakes tendem a apresentar fraca generalização para novos métodos generativos devido à exploração limitada apenas das modalidades visuais. Em geral, eles avaliam de forma grosseira o desempenho de atribuição ou detecção dos modelos em geradores avançados não vistos e deixam de considerar a sinergia entre as duas tarefas. Para isso, propomos um novo CLIP guiado por olhar, com prompts linguísticos finos e adaptativamente aprimorados, para atribuição e detecção finas de deepfakes (DFAD). Especificamente, conduzimos um novo benchmark detalhado para avaliar o desempenho de DFAD de redes em novos geradores, como modelos de difusão e de fluxo. Além disso, introduzimos um modelo sensível ao olhar baseado em CLIP, concebido para melhorar a generalização a ataques inéditos de falsificação facial. Com base na nova observação de que existem diferenças de distribuição significativas entre vetores de olhar autênticos e forjados, e que a preservação do olhar-alvo em imagens faciais geradas por GAN e difusão varia significativamente, projetamos um codificador de percepção visual para explorar essas diferenças inerentes de olhar e minerar embeddings globais de falsificação nos domínios da aparência e do olhar. Propomos um gaze-aware image encoder (GIE) que funde prompts de olhar forjado extraídos por um codificador de olhar com embeddings comuns de imagens forjadas para capturar padrões gerais de atribuição, permitindo transformar as características em um espaço de características DFAD mais estável e compartilhado. Construímos um language refinement encoder (LRE) para gerar embeddings linguísticos dinamicamente aprimorados por meio de um seletor de palavras com reforço adaptativo, possibilitando um pareamento visão-linguagem preciso. Experimentos extensivos em nosso benchmark mostram que nosso modelo supera o estado da arte em 6.56% de ACC e 5.32% de AUC em desempenho médio sob as configurações de atribuição e detecção, respectivamente. Os códigos estarão disponíveis no GitHub.

Ponto de partida da pesquisa

Detectores de deepfakes frequentemente se concentram demais na aparência visual e falham fortemente quando um novo gerador produz artefatos diferentes dos vistos no treinamento. Os autores partem da observação de que rostos forjados também exibem diferenças no comportamento do olhar e na preservação do olhar, especialmente entre pipelines baseados em GAN e difusão, e que esse sinal ainda não foi plenamente explorado. A motivação é melhorar ao mesmo tempo a atribuição e a detecção de deepfakes de forma que generalize para geradores não vistos, em vez de colapsar no próximo lançamento de modelo.

Método

O GazeCLIP constrói um framework no estilo CLIP sensível ao olhar, no qual pistas visuais de falsificação e prompts baseados em olhar são fundidos em um espaço de embeddings forenses mais estável. O método introduz um gaze-aware image encoder e um language refinement encoder com seleção adaptativa de palavras, tornando o ramo textual mais preciso ao descrever sinais de autenticidade. O artigo também constrói um benchmark mais refinado, focado em atribuição e detecção sob novos geradores baseados em difusão e flow, fortalecendo a credibilidade da avaliação.

Síntese do artigo

O artigo é convincente porque adiciona uma nova pista anatômica — a consistência do olhar — à caixa de ferramentas da detecção de deepfakes, em vez de reciclar indefinidamente o mesmo paradigma centrado em textura. Essa mudança ajuda a explicar por que o método melhora em geradores não vistos, e não apenas em datasets familiares. Para quem acompanha defesa contra falsificação facial, o GazeCLIP é um bom exemplo de como o raciocínio multimodal pode se tornar realmente útil.

Artigo 022026-03-27cs.CV

Face2Parts: explorando dependências faciais inter-regionais coarse-to-fine para detecção generalizada de deepfakes

arXiv PDF

Autores e instituições

Kutub Uddin

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Nusrat Tasnim

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Byung Tae Oh

School of Electronics and Information Engineering, Korea Aerospace University, Goyang, South Korea

Que problema resolve

O Face2Parts foi projetado para capturar dependências coarse-to-fine entre o quadro completo, o recorte do rosto e sub-regiões-chave como olhos, lábios e nariz.

Resultado-chave

O artigo relata forte AUC média em um amplo conjunto de benchmarks, incluindo 98.42% no FaceForensics++, além de desempenho competitivo cross-dataset em variantes de DFDC, DFD e CDF.

Resumo

Dados multimídia, particularmente imagens e vídeos, são integrais a várias aplicações, incluindo vigilância, interação visual, biometria, coleta de evidências e publicidade. No entanto, falsificadores amadores ou habilidosos podem simulá-los para criar deepfakes, muitas vezes com motivações difamatórias. Para enfrentar esse desafio, vários métodos forenses foram desenvolvidos para garantir a autenticidade do conteúdo. A eficácia desses métodos depende de seu foco, com desafios surgindo da natureza diversa das manipulações. Neste artigo, analisamos métodos forenses existentes e observamos que cada método possui pontos fortes únicos na detecção de traços de deepfake ao se concentrar em regiões faciais específicas, como o quadro, o rosto, os lábios, os olhos ou o nariz. Considerando esses insights, propomos uma nova abordagem híbrida chamada Face2Parts, baseada em representação hierárquica de características ($HFR$), que aproveita informações coarse-to-fine para melhorar a detecção de deepfakes. O método proposto envolve a extração separada de características do quadro, do rosto e de regiões faciais-chave (isto é, lábios, olhos e nariz) para explorar as relações coarse-to-fine. Essa abordagem nos permite capturar interdependências entre regiões faciais usando um mecanismo de atenção por canal e aprendizado profundo por tripletos. Avaliamos o método proposto em conjuntos de dados benchmark de deepfake em cenários intra-dataset, inter-dataset e inter-manipulation. O método proposto alcança AUC média de 98.42% em FF++, 79.80% em CDF1, 85.34% em CDF2, 89.41% em DFD, 84.07% em DFDC, 95.62% em DTIM, 80.76% em PDD e 100% em WLDR, respectivamente. Os resultados demonstram que nossa abordagem generaliza de forma eficaz e alcança desempenho promissor, superando os métodos existentes.

Ponto de partida da pesquisa

Métodos de detecção de deepfakes muitas vezes se destacam por especialização: um modelo é forte em contornos faciais, outro na região dos olhos e outro em artefatos da boca. Os autores partem da ideia de que essas forças não deveriam competir, mas ser integradas, porque falsificações deixam evidências em diferentes escalas e em diferentes partes da imagem. O objetivo é projetar um detector que capture explicitamente essa diversidade coarse-to-fine, em vez de esperar que um único mapa de características monolítico descubra tudo.

Método

O Face2Parts extrai características do quadro completo, do recorte do rosto e de várias regiões faciais-chave, como lábios, olhos e nariz, e modela suas interações por meio de channel attention e deep triplet learning. Essa representação hierárquica de características busca capturar tanto o contexto global quanto pequenos artefatos locais, aprendendo também como essas regiões se reforçam mutuamente. A avaliação cobre cenários intra-dataset, cross-dataset e inter-manipulation, o que é crítico porque muitos detectores falham justamente quando o estilo de manipulação muda.

Síntese do artigo

O Face2Parts é útil porque formaliza um fluxo forense muito intuitivo: primeiro inspecionar a imagem inteira, depois aproximar o rosto e, por fim, focar nas partes mais suspeitas. Os fortes resultados em benchmarks sugerem que esse processo de inspeção em camadas não é apenas interpretável, mas também eficaz. Para profissionais, é um lembrete de que a detecção de deepfakes ainda pode avançar com melhor estruturação da evidência, e não apenas com modelos maiores.

Artigo 032026-03-23cs.CV

VIGIL: raciocínio estruturado ancorado em partes para detecção generalizável de deepfakes

arXiv PDF

Autores e instituições

Xinghan Li

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Junhao Xu

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Jingjing Chen

Institute of Trustworthy Embodied AI, Fudan University, China

Shanghai Key Laboratory of Multimodal Embodied AI, China

Que problema resolve

O VIGIL separa planejamento de exame para que o detector decida primeiro quais partes merecem inspeção antes da injeção de evidência em nível de partes.

Resultado-chave

No OmniFake e em testes cross-dataset, os autores relatam generalização mais forte do que a de detectores especialistas e também do que abordagens anteriores baseadas em MLLM.

Resumo

Modelos multimodais de linguagem de grande porte (MLLMs) oferecem um caminho promissor para a detecção interpretável de deepfakes ao gerar explicações textuais. No entanto, o processo de raciocínio dos métodos atuais baseados em MLLMs combina a geração de evidências e a localização da manipulação em uma única etapa. Essa combinação obscurece a fronteira entre observações fiéis e explicações alucinadas, levando a conclusões pouco confiáveis. Com base nisso, apresentamos o VIGIL, um framework forense estruturado e centrado em partes, inspirado na prática forense especializada por meio de um pipeline plan-then-examine: o modelo primeiro planeja quais partes faciais merecem inspeção com base em pistas visuais globais e, em seguida, examina cada parte com evidências forenses obtidas de forma independente. Um mecanismo de injeção com gate por estágio entrega evidências forenses em nível de parte apenas durante o exame, garantindo que a seleção das partes permaneça orientada pela própria percepção do modelo, em vez de enviesada por sinais externos. Também propomos um paradigma progressivo de treinamento em três estágios, cuja etapa de aprendizado por reforço emprega recompensas sensíveis às partes para impor validade anatômica e coerência entre evidência e conclusão. Para possibilitar uma avaliação rigorosa de generalização, construímos o OmniFake, um benchmark hierárquico de 5 níveis no qual o modelo, treinado em apenas três geradores fundamentais, é testado progressivamente até dados de redes sociais in-the-wild. Experimentos extensivos no OmniFake e avaliações cross-dataset demonstram que o VIGIL supera consistentemente tanto detectores especialistas quanto métodos contemporâneos baseados em MLLMs em todos os níveis de generalização.

Ponto de partida da pesquisa

Detectores de deepfakes baseados em MLLM prometem explicabilidade, mas muitos misturam duas etapas muito diferentes: decidir o que inspecionar e afirmar o que a evidência significa. Essa fusão dificulta detectar alucinações porque o modelo efetivamente inventa a observação e a conclusão ao mesmo tempo. O trabalho é motivado pela necessidade de separar essas fases para que o raciocínio sobre deepfakes se pareça mais com análise forense e menos com improvisação fluente.

Método

O VIGIL usa um pipeline plan-then-examine no qual o sistema primeiro seleciona quais partes faciais merecem investigação e só então injeta evidências forenses específicas de região no processo de raciocínio. O modelo também utiliza entrega de evidência com gate por estágio e treinamento progressivo com recompensas de reinforcement learning sensíveis às partes, para que as explicações permaneçam ligadas a anatomia plausível e cadeias de evidência consistentes. Para testar a generalização com mais rigor, o artigo também introduz o OmniFake, um benchmark de cinco níveis que vai de geradores fundamentais até dados in-the-wild de redes sociais.

Síntese do artigo

A maior contribuição do VIGIL é estrutural: ele trata a detecção explicável de deepfakes como um problema de desenho de pipeline, e não apenas de prompting. Ao forçar o detector a escolher primeiro as partes e explicar depois, o framework torna mais fácil distinguir evidência fundamentada de narrativa alucinada. Isso torna o artigo especialmente relevante para equipes que querem detectores cujas explicações possam ser revisadas por humanos, e não apenas admiradas em demos.

Artigo 042026-03-25cs.CV

Liberando a semântica visão-linguagem para detecção de vídeos deepfake

arXiv PDF

Autores e instituições

Jiawen Zhu

Singapore Management University, Singapore

Yunqi Miao

The University of Warwick, UK

Xueyi Zhang

Nanyang Technological University, Singapore

Jiankang Deng

Imperial College London, UK

Guansong Pang

Singapore Management University, Singapore

Que problema resolve

O VLAForge pergunta como converter a semântica cross-modal em um sinal discriminativo mais forte tanto para face swaps clássicos quanto para vídeos sintéticos recentes de face completa.

Resultado-chave

O artigo relata ganhos substanciais sobre métodos anteriores de detecção de vídeo deepfake, tanto em nível de frame quanto de vídeo, em benchmarks de face-swapping e geração de face completa.

Resumo

Estudos recentes de Deepfake Video Detection (DFD) demonstraram que Vision-Language Models (VLMs) pré-treinados, como o CLIP, exibem forte capacidade de generalização na detecção de artefatos em diferentes identidades. No entanto, as abordagens existentes se concentram em explorar apenas características visuais, negligenciando sua força mais distintiva — a rica semântica visão-linguagem incorporada no espaço latente. Propomos o VLAForge, um novo framework de DFD que libera o potencial dessa semântica cross-modal para aumentar o poder discriminativo do modelo na detecção de deepfakes. Este trabalho i) aprimora a percepção visual do VLM por meio de um ForgePerceiver, que atua como um aprendiz independente para capturar pistas de falsificação diversas e sutis, tanto de forma granular quanto holística, ao mesmo tempo em que preserva o conhecimento pré-treinado de Vision-Language Alignment (VLA), e ii) fornece uma pista discriminativa complementar — o Identity-Aware VLA score, derivado do acoplamento entre a semântica cross-modal e as pistas de falsificação aprendidas pelo ForgePerceiver. Notavelmente, o VLA score é ampliado por um prompting textual informado por um prior de identidade para capturar pistas de autenticidade adaptadas a cada identidade, possibilitando assim uma semântica cross-modal mais discriminativa. Experimentos abrangentes em benchmarks de DFD em vídeo, incluindo falsificações clássicas de face-swapping e falsificações recentes de geração de face completa, demonstram que o VLAForge supera substancialmente os métodos state-of-the-art tanto em nível de frame quanto de vídeo. O código está disponível em https://github.com/mala-lab/VLAForge.

Ponto de partida da pesquisa

Modelos visão-linguagem como CLIP mostraram impressionante capacidade de transferência, mas muitos métodos de detecção de vídeo deepfake ainda os usam como se fossem apenas codificadores visuais mais fortes. Os autores argumentam que isso desperdiça a parte mais distintiva do modelo: o próprio espaço semântico cross-modal. A motivação é transformar esse alinhamento semântico latente em um sinal discriminativo para detecção de deepfakes, especialmente ao generalizar entre face swaps clássicos e vídeos sintéticos mais recentes de face completa.

Método

O framework proposto VLAForge adiciona um ForgePerceiver para minerar pistas sutis de falsificação enquanto preserva o alinhamento visão-linguagem original aprendido pelo VLM pré-treinado. Em seguida, introduz um identity-aware vision-language alignment score, apoiado por prompts informados por identidade, para tornar o espaço cross-modal mais sensível a incompatibilidades de autenticidade. Isso permite que o detector combine percepção de artefatos e comparação semântica, em vez de depender apenas de uma delas.

Síntese do artigo

A mensagem central do artigo é que a detecção de vídeos deepfake pode ganhar robustez real ao usar corretamente a semântica visão-linguagem, e não apenas como decoração. O VLAForge mostra que alinhamento semântico, priors de identidade e percepção específica de falsificação podem trabalhar juntos em vez de competir. Para quem acompanha o futuro da defesa contra deepfakes, este é um passo relevante rumo a detectores mais generalizáveis e conceitualmente mais bem fundamentados.