Radar de PesquisaDetecção FacialarXivMarço de 2026

Radar mensal do arXiv

Radar de deteccao facial de marco de 2026: pipelines de landmarks, calibracao e anti-spoofing

Artigos de detectores faciais puros foram relativamente escassos no arXiv em março de 2026, então este radar amplia a lente para a stack mais ampla de detecção facial: extração de landmarks, geometria amigável à calibração e verificações de anti-spoofing posicionadas diretamente a montante do reconhecimento facial em produção. Esse enquadramento mais amplo reflete melhor como sistemas reais de detecção facial são avaliados e implantados.

O que este mês sinaliza

O fio condutor é o realismo de implantação: pipelines geométricos leves, adaptação por sessão e raciocínio de liveness estão se tornando tão importantes quanto a capacidade bruta de detecção em stacks faciais comerciais.

Artigo 012026-03-12cs.CV

Meta-calibração por sessão orientada à implantação para rastreamento do olhar por webcam baseado em landmarks

arXiv PDF

Autores e instituições

Chenkai Zhang

Independent Researcher, Wenzhou, Zhejiang, China

Que problema resolve

O trabalho trata de como tornar prática a geometria facial baseada em landmarks sob pequenos orçamentos de calibração por sessão, movimento de cabeça e restrições de runtime.

Resultado-chave

O codificador exportado focado nos olhos tem apenas 4.76 MB em ONNX e suporta inferência calibrada no navegador em cerca de 12.6 ms por amostra, superando o Elastic Net nas avaliações em estilo de fixação.

Resumo

O rastreamento prático do olhar por webcam é limitado não apenas pelo erro, mas também pelo custo de calibração, pela robustez ao movimento de cabeça e à deriva entre sessões, pela pegada de execução e pelo uso no navegador. Por isso, visamos um ponto de operação orientado à implantação, e não o regime de imagens com backbones de grande porte. Formulamos a estimação do ponto de olhar baseada em landmarks como adaptação por sessão: um codificador geométrico compartilhado produz embeddings que podem ser alinhados a uma nova sessão a partir de um pequeno conjunto de calibração. Apresentamos o Equivariant Meta-Calibrated Gaze (EMC-Gaze), um método leve baseado apenas em landmarks que combina um codificador de grafo de landmarks E(3)-equivariante, geometria ocular local, ênfase binocular, supervisão auxiliar da direção do olhar em 3D e um calibrador ridge em forma fechada diferenciado por meio de meta-training episódico. Para reduzir vazamento de pose, usamos uma perda de consistência de canonização em duas vistas. O preditor implantado usa apenas landmarks faciais e ajusta uma cabeça ridge por sessão a partir de uma calibração breve. Em uma avaliação interativa do tipo fixação em 33 sessões a 100 cm, o EMC-Gaze atinge 5.79 +/- 1.81 deg de RMSE após calibração de 9 pontos, versus 6.68 +/- 2.34 deg do Elastic Net; o ganho é maior em consultas com cabeça imóvel (2.92 +/- 0.75 deg vs. 4.45 +/- 0.30 deg). Em três holdouts por sujeito de 10 sujeitos cada, o EMC-Gaze mantém vantagem (5.66 +/- 0.19 deg vs. 6.49 +/- 0.33 deg). No MPIIFaceGaze com calibração curta por sessão, o modelo focado nos olhos alcança 8.82 +/- 1.21 deg com calibração de 16-shot, empata com o Elastic Net em 1-shot e o supera a partir de 3-shot. O codificador exportado focado nos olhos tem 944,423 parâmetros, 4.76 MB em ONNX e oferece predição calibrada no navegador em 12.58/12.58/12.90 ms por amostra (mean/median/p90) no Chromium 145 com ONNX Runtime Web. Esses resultados posicionam o EMC-Gaze como um ponto de operação favorável à calibração, e não como uma alegação universal de estado da arte frente a sistemas mais pesados baseados em aparência.

Ponto de partida da pesquisa

Em muitas pipelines práticas com webcam, a parte mais difícil não é detectar um rosto, mas manter a estimativa geométrica estável sob session drift, movimento casual de cabeça, calibração curta e limites de computação no navegador. O artigo parte da observação de que muitos sistemas de gaze de alta precisão assumem um ambiente de execução mais pesado e um hardware mais permissivo do que as implantações reais conseguem sustentar. Por isso, o autor mira um ponto de operação mais estreito, porém altamente prático: inferência landmark-only leve que ainda se adapta rapidamente a cada nova sessão.

Método

O EMC-Gaze formula a estimativa de gaze baseada em landmarks como um problema de adaptação por sessão. Ele combina um codificador de grafo de landmarks E(3)-equivariante, geometria ocular local mais rica, ênfase binocular e uma cabeça de calibração ridge em forma fechada diferenciada durante o meta-training. O método também adiciona canonicalization consistency e supervisão 3D auxiliar no treinamento para que a robustez à pose seja aprendida na representação, em vez de ficar para um grande modelo em produção.

Síntese do artigo

O principal valor do artigo está no realismo de implantação. Ele não afirma superar todo gaze tracker appearance-based pesado, mas mostra que um modelo ONNX pequeno com calibração curta ainda pode entregar melhorias relevantes sobre baselines geométricas clássicas. Para equipes que constroem análise facial no navegador ou no edge, este é um forte exemplo de como trocar um pouco de glamour de leaderboard por muito mais aderência operacional.

Artigo 022026-03-25cs.CV

A geometria basta? Uma avaliação da estimação do olhar baseada em landmarks

arXiv PDF

Autores e instituições

Daniele Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Thomas Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Andrea Generosi

Department of Science and Information Technology, Universita Pegaso, Italy

Maura Mengoni

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Que problema resolve

O artigo avalia o teto real da modelagem landmark-only em datasets modernos de gaze e em cenários cross-domain, em vez de presumir que pipelines pesadas com CNN são obrigatórias.

Resultado-chave

Modelos landmark-only ficam atrás em precisão within-domain, mas se aproximam muito mais de baselines no estilo ResNet18 em generalização cross-domain, sugerindo que a geometria continua surpreendentemente competitiva quando a robustez importa.

Resumo

A estimação do olhar baseada em aparência frequentemente depende de Redes Neurais Convolucionais profundas (CNNs). Esses modelos são precisos, mas computacionalmente caros e funcionam como caixas-pretas, oferecendo pouca interpretabilidade. Métodos geométricos baseados em landmarks faciais são uma alternativa leve, mas seus limites de desempenho e capacidades de generalização permanecem pouco explorados em benchmarks modernos. Neste estudo, conduzimos uma avaliação abrangente da estimação do olhar baseada em landmarks. Introduzimos um pipeline padronizado para extrair e normalizar landmarks de três grandes conjuntos de dados (Gaze360, ETH-XGaze e GazeGene) e treinamos modelos leves de regressão, especificamente árvores Extreme Gradient Boosted e duas arquiteturas neurais: um Multi-Layer Perceptron (MLP) holístico e um MLP siamesa projetado para capturar a geometria binocular. Observamos que modelos baseados em landmarks apresentam desempenho inferior na avaliação intra-domínio, provavelmente devido ao ruído introduzido nos conjuntos de dados pelo detector de landmarks. Ainda assim, na avaliação entre domínios, as arquiteturas MLP propostas mostram capacidades de generalização comparáveis às das baselines ResNet18. Esses achados sugerem que características geométricas esparsas codificam informação suficiente para uma estimação robusta do olhar, abrindo caminho para aplicações edge eficientes, interpretáveis e favoráveis à privacidade. O código-fonte e os conjuntos de dados gerados com base em landmarks estão disponíveis em https://github.com/daniele-agostinelli/LandmarkGaze.git.

Ponto de partida da pesquisa

Modelos appearance-based dominam a estimação moderna do olhar, mas continuam caros, opacos e mais difíceis de implantar em ambientes sensíveis à privacidade. A modelagem landmark-only promete uma alternativa muito mais leve, porém o campo ainda carece de uma comparação rigorosa que teste se a geometria esparsa é apenas uma aproximação barata ou uma representação seriamente competitiva. Os autores partem dessa lacuna e da questão mais ampla de quanta informação a geometria facial sozinha pode carregar entre datasets.

Método

O artigo primeiro constrói versões landmark-based normalizadas de três grandes datasets — Gaze360, ETH-XGaze e GazeGene — e depois treina três regressores leves sobre essas características: XGBoost, um MLP holístico e um MLP siameso voltado para geometria binocular. A avaliação inclui testes within-domain e cross-domain, permitindo separar ajuste bruto ao benchmark de generalização real. Os autores também analisam a importância das características e identificam o ruído do landmark detector como um dos principais gargalos que limitam o teto dos sistemas geometry-only.

Síntese do artigo

A principal conclusão é que a geometria sozinha não basta para vencer todo benchmark, mas é muito mais forte do que muita gente supõe quando a robustez cross-domain importa. Os melhores MLPs landmark-based ficam atrás dos modelos de imagem em precisão within-domain, mas se tornam surpreendentemente competitivos quando ocorre domain shift. Para edge AI e produtos privacy-first, isso faz da geometria esparsa uma opção estrategicamente interessante, e não uma mera curiosidade de pesquisa.

Artigo 032026-03-01cs.CV

Da intuição à investigação: um framework MLLM de raciocínio aumentado por ferramentas para Face Anti-Spoofing generalizável

arXiv PDF

Autores e instituições

Haoyuan Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Baidu Inc.

Keyao Wang

Baidu Inc.

Guosheng Zhang

Baidu Inc.

Haixiao Yue

Baidu Inc.

Zhiwen Tan

Baidu Inc.

Siran Peng

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Tianshuo Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiao Tan

Baidu Inc.

Kunbin Chen

Baidu Inc.

Wei He

Baidu Inc.

Jingdong Wang

Baidu Inc.

Ajian Liu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiangyu Zhu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Zhen Lei

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

CAIR, HKISI, CAS

Macao University of Science and Technology

Que problema resolve

O artigo mira a fraca generalização dos sistemas de Face Anti-Spoofing e investiga se pipelines multimodais aumentadas com raciocínio conseguem inspecionar evidências de ataque com mais robustez.

Resultado-chave

O abstract apresenta como contribuição central uma generalização mais forte em Face Anti-Spoofing por meio de raciocínio explícito e integração de evidências, exatamente o que sistemas práticos de liveness precisam diante de novos formatos de ataque.

Resumo

O reconhecimento facial continua vulnerável a ataques de apresentação, exigindo soluções robustas de Face Anti-Spoofing (FAS). Métodos recentes de FAS baseados em MLLMs reformulam a tarefa de classificação binária como a geração de breves descrições textuais para melhorar a generalização entre domínios. No entanto, sua capacidade de generalização ainda é limitada, pois tais descrições capturam principalmente pistas semânticas intuitivas, por exemplo contornos de máscara, enquanto têm dificuldade para perceber padrões visuais de grão fino. Para enfrentar essa limitação, incorporamos ferramentas visuais externas aos MLLMs para incentivar uma investigação mais profunda de indícios sutis de spoofing. Especificamente, propomos o framework Tool-Augmented Reasoning FAS (TAR-FAS), que reformula a tarefa de FAS como um paradigma Chain-of-Thought with Visual Tools (CoT-VT), permitindo que os MLLMs comecem com observações intuitivas e invoquem de forma adaptativa ferramentas visuais externas para uma investigação fina. Para isso, projetamos um pipeline de anotação de dados aumentado por ferramentas e construímos o conjunto de dados ToolFAS-16K, que contém trajetórias de raciocínio multi-turn com uso de ferramentas. Além disso, introduzimos um pipeline de treinamento de FAS ciente de ferramentas, no qual o Diverse-Tool Group Relative Policy Optimization (DT-GRPO) permite que o modelo aprenda autonomamente um uso eficiente das ferramentas. Experimentos extensivos sob um desafiador protocolo entre domínios de um-para-onze demonstram que o TAR-FAS alcança desempenho SOTA ao mesmo tempo em que fornece investigação visual de grão fino para detecção confiável de spoofing.

Ponto de partida da pesquisa

Sistemas de Face Anti-Spoofing frequentemente colapsam quando o estilo do ataque muda, porque acabam superajustando silenciosamente a um pequeno conjunto de artefatos recorrentes dos datasets de treinamento. Os autores partem da lacuna entre desempenho em benchmark e robustez no mundo real, onde novos ataques impressos, replay attacks ou spoofs generativos podem parecer diferentes de tudo o que foi visto antes. Eles enquadram o problema como uma transição do pattern matching superficial para um processo mais explícito de busca de evidências e raciocínio.

Método

O artigo propõe um framework de raciocínio aumentado por ferramentas para Face Anti-Spoofing generalizável, no qual o modelo não para em uma primeira impressão visual, mas reúne indícios de apoio progressivamente. Em vez de confiar em um único classificador end-to-end para absorver todos os sinais de ataque, o método enfatiza etapas intermediárias de investigação e integração explícita de evidências. Esse desenho busca tornar o julgamento de liveness menos dependente de artefatos frágeis de dataset e mais resiliente a formatos de spoof desconhecidos.

Síntese do artigo

Embora o artigo seja enquadrado em torno de anti-spoofing, sua mensagem mais ampla é relevante para toda a stack de detecção e verificação facial: robustez vem de melhor coleta de evidências, não apenas de backbones maiores. Para equipes práticas, a ideia é convincente porque liveness costuma ser o primeiro ponto real de falha em sistemas de KYC e controle de acesso. Um detector que raciocina sobre evidências de spoof, em vez de memorizar um dataset, pode ser muito mais útil em produção.