← Retour au Blog
Radar de rechercheDétection facialearXivMars 2026

Radar mensuel arXiv

Radar de détection faciale de mars 2026 : pipelines de landmarks, calibration et anti-spoofing

Les articles consacrés strictement aux détecteurs de visage étaient relativement rares sur arXiv en mars 2026. Ce radar élargit donc la focale à l'ensemble de la pile de détection faciale : extraction de landmarks, géométrie favorable à la calibration et contrôles d'anti-spoofing placés juste en amont de la reconnaissance faciale en production. Ce cadrage plus large reflète mieux la manière dont les systèmes réels de détection faciale sont évalués et déployés.

Ce que révèle ce mois-ci

Le fil conducteur est le réalisme du déploiement : les pipelines géométriques légers, l'adaptation par session et le raisonnement de liveness deviennent aussi importants que la capacité brute de détection dans les piles faciales commerciales.

Article 012026-03-12cs.CV

Méta-calibration par session orientée déploiement pour le suivi du regard par webcam fondé sur des landmarks

Auteurs & institutions

Chenkai Zhang

Independent Researcher, Wenzhou, Zhejiang, China

Problème traité

L'article traite de la manière de rendre praticable une géométrie faciale fondée sur des landmarks avec peu de calibration par session, des mouvements de tête et des contraintes d'exécution.

Résultat clé

L'encodeur exporté centré sur les yeux ne fait que 4.76 MB en ONNX, permet une inférence calibrée dans le navigateur autour de 12.6 ms par échantillon et surpasse Elastic Net sur l'ensemble des évaluations de type fixation.

Résumé

Le suivi du regard pratique par webcam est limité non seulement par l'erreur, mais aussi par la charge de calibration, la robustesse aux mouvements de tête et à la dérive entre sessions, l'empreinte d'exécution et l'usage en navigateur. Nous visons donc un point de fonctionnement orienté déploiement plutôt que le régime d'images avec grands backbones. Nous formulons l'estimation du point de regard fondée sur des landmarks comme une adaptation par session : un encodeur géométrique partagé produit des embeddings pouvant être alignés sur une nouvelle session à partir d'un petit ensemble de calibration. Nous présentons Equivariant Meta-Calibrated Gaze (EMC-Gaze), une méthode légère fondée uniquement sur les landmarks, qui combine un encodeur de graphe de landmarks E(3)-équivariant, une géométrie locale des yeux, une emphase binoculaire, une supervision auxiliaire de direction du regard en 3D, et un calibrateur ridge à forme fermée différencié via un meta-training épisodique. Pour réduire les fuites de pose, nous utilisons une perte de cohérence de canonicalisation à deux vues. Le prédicteur déployé n'utilise que les landmarks faciaux et ajuste une tête ridge par session à partir d'une brève calibration. Dans une évaluation interactive de type fixation sur 33 sessions à 100 cm, EMC-Gaze atteint 5.79 +/- 1.81 deg de RMSE après une calibration en 9 points, contre 6.68 +/- 2.34 deg pour Elastic Net ; le gain est plus important sur les requêtes à tête immobile (2.92 +/- 0.75 deg contre 4.45 +/- 0.30 deg). Sur trois partitions holdout par sujet de 10 sujets chacune, EMC-Gaze conserve un avantage (5.66 +/- 0.19 deg contre 6.49 +/- 0.33 deg). Sur MPIIFaceGaze avec une courte calibration par session, le modèle centré sur les yeux atteint 8.82 +/- 1.21 deg avec une calibration 16-shot, fait jeu égal avec Elastic Net à 1-shot, et le surpasse à partir de 3-shot. L'encodeur exporté centré sur les yeux comporte 944,423 paramètres, occupe 4.76 MB en ONNX, et prend en charge une prédiction calibrée dans le navigateur en 12.58/12.58/12.90 ms par échantillon (mean/median/p90) dans Chromium 145 avec ONNX Runtime Web. Ces résultats positionnent EMC-Gaze comme un point de fonctionnement favorable à la calibration, plutôt qu'une revendication universelle d'état de l'art face à des systèmes plus lourds fondés sur l'apparence.

Point de départ de la recherche

Dans de nombreuses pipelines webcam réelles, la difficulté principale n'est pas de détecter un visage, mais de maintenir une estimation géométrique stable malgré la dérive entre sessions, les mouvements de tête ordinaires, une calibration très courte et les contraintes de calcul côté navigateur. L'article part du constat que beaucoup de systèmes de gaze très précis supposent un environnement d'exécution plus lourd et un matériel plus permissif que ce qu'autorisent les déploiements réels. L'auteur vise donc un point de fonctionnement plus resserré mais très pratique : une inférence landmark-only légère capable de s'adapter rapidement à chaque nouvelle session.

Méthode

EMC-Gaze reformule l'estimation du regard fondée sur les landmarks comme un problème d'adaptation par session. Il combine un encodeur de graphe de landmarks E(3)-équivariant, une géométrie locale de l'œil plus riche, une emphase binoculaire et une tête de calibration ridge en forme fermée différenciée durant le méta-entraînement. La méthode ajoute aussi canonicalization consistency et une supervision 3D auxiliaire à l'entraînement afin que la robustesse à la pose soit apprise dans la représentation plutôt que reportée sur un gros modèle au déploiement.

À retenir

La valeur principale de l'article réside dans son réalisme de déploiement. Il ne prétend pas battre tous les gaze trackers appearance-based lourds, mais montre qu'un petit modèle ONNX avec une calibration courte peut tout de même apporter des gains significatifs face aux baselines géométriques classiques. Pour les équipes qui construisent de l'analyse faciale dans le navigateur ou à l'edge, c'est un bon exemple de compromis entre un peu moins d'éclat sur leaderboard et un bien meilleur ajustement opérationnel.

Article 022026-03-25cs.CV

La géométrie suffit-elle ? Une évaluation de l'estimation du regard fondée sur les landmarks

Auteurs & institutions

Daniele Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Thomas Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Andrea Generosi

Department of Science and Information Technology, Universita Pegaso, Italy

Maura Mengoni

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Problème traité

L'article évalue le plafond réel de la modélisation landmark-only sur des jeux de données de gaze modernes et dans des contextes inter-domaines, au lieu de supposer que des pipelines lourds à base de CNN sont indispensables.

Résultat clé

Les modèles landmark-only sont en retrait en précision intra-domaine, mais se rapprochent davantage des baselines de type ResNet18 en généralisation inter-domaines, ce qui suggère que la géométrie reste étonnamment compétitive lorsque la robustesse compte vraiment.

Résumé

L'estimation du regard fondée sur l'apparence s'appuie fréquemment sur des réseaux neuronaux convolutionnels profonds (CNN). Ces modèles sont précis, mais coûteux en calcul et agissent comme des boîtes noires, offrant peu d'interprétabilité. Les méthodes géométriques fondées sur des landmarks faciaux constituent une alternative légère, mais leurs limites de performance et leurs capacités de généralisation restent peu explorées sur les benchmarks modernes. Dans cette étude, nous menons une évaluation complète de l'estimation du regard fondée sur les landmarks. Nous introduisons un pipeline standardisé pour extraire et normaliser des landmarks à partir de trois grands jeux de données (Gaze360, ETH-XGaze et GazeGene) et entraînons des modèles de régression légers, à savoir des arbres Extreme Gradient Boosted ainsi que deux architectures neuronales : un perceptron multicouche (MLP) holistique et un MLP siamois conçu pour capturer la géométrie binoculaire. Nous constatons que les modèles fondés sur les landmarks présentent des performances plus faibles dans l'évaluation intra-domaine, probablement en raison du bruit introduit dans les jeux de données par le détecteur de landmarks. Néanmoins, en évaluation inter-domaine, les architectures MLP proposées montrent des capacités de généralisation comparables à celles des baselines ResNet18. Ces résultats suggèrent que des caractéristiques géométriques clairsemées encodent suffisamment d'information pour une estimation du regard robuste, ouvrant la voie à des applications edge efficaces, interprétables et respectueuses de la vie privée. Le code source et les jeux de données générés fondés sur les landmarks sont disponibles à l'adresse https://github.com/daniele-agostinelli/LandmarkGaze.git.

Point de départ de la recherche

Les modèles appearance-based dominent l'estimation moderne du regard, mais ils restent coûteux, opaques et plus difficiles à déployer dans des environnements sensibles à la vie privée. La modélisation landmark-only promet une alternative bien plus légère, mais le domaine manque encore d'une comparaison rigoureuse permettant de savoir si la géométrie clairsemée n'est qu'une approximation bon marché ou une représentation réellement compétitive. Les auteurs sont motivés par ce manque et par la question plus large de savoir quelle quantité d'information la géométrie faciale seule peut porter d'un jeu de données à l'autre.

Méthode

L'article construit d'abord des versions landmark-based normalisées de trois grands jeux de données — Gaze360, ETH-XGaze et GazeGene — puis entraîne trois régressseurs légers sur ces caractéristiques : XGBoost, un MLP holistique et un MLP siamois adapté à la géométrie binoculaire. L'évaluation couvre à la fois des tests intra-domaine et inter-domaines, ce qui permet de distinguer l'ajustement brut au benchmark de la véritable généralisation. Les auteurs analysent aussi l'importance des variables et identifient le bruit du landmark detector comme l'un des principaux goulets d'étranglement limitant le plafond des systèmes geometry-only.

À retenir

L'idée clé est que la géométrie seule ne suffit pas pour gagner tous les benchmarks, mais qu'elle est bien plus forte que beaucoup ne l'imaginent lorsque la robustesse inter-domaines devient importante. Les meilleurs MLP landmark-based restent derrière les modèles d'image en précision intra-domaine, mais deviennent étonnamment compétitifs dès qu'un domain shift apparaît. Pour l'edge AI et les produits privacy-first, cela fait de la géométrie clairsemée une option stratégiquement intéressante plutôt qu'une simple curiosité de recherche.

Article 032026-03-01cs.CV

De l'intuition à l'investigation : un cadre MLLM de raisonnement augmenté par outils pour un Face Anti-Spoofing généralisable

Auteurs & institutions

Haoyuan Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Baidu Inc.

Keyao Wang

Baidu Inc.

Guosheng Zhang

Baidu Inc.

Haixiao Yue

Baidu Inc.

Zhiwen Tan

Baidu Inc.

Siran Peng

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Tianshuo Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiao Tan

Baidu Inc.

Kunbin Chen

Baidu Inc.

Wei He

Baidu Inc.

Jingdong Wang

Baidu Inc.

Ajian Liu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiangyu Zhu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Zhen Lei

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

CAIR, HKISI, CAS

Macao University of Science and Technology

Problème traité

L'article cible la faible généralisation des systèmes de Face Anti-Spoofing et étudie si des pipelines multimodaux enrichis par le raisonnement peuvent inspecter plus robustement les preuves d'attaque.

Résultat clé

Le résumé présente la contribution centrale comme une généralisation plus forte en Face Anti-Spoofing grâce à un raisonnement explicite et à l'intégration de preuves, exactement ce dont les systèmes pratiques de liveness ont besoin face à de nouveaux formats d'attaque.

Résumé

La reconnaissance faciale reste vulnérable aux attaques de présentation, ce qui appelle des solutions robustes de Face Anti-Spoofing (FAS). Les méthodes récentes de FAS fondées sur des MLLM reformulent la tâche de classification binaire comme la génération de brèves descriptions textuelles afin d'améliorer la généralisation inter-domaines. Cependant, leur capacité de généralisation reste limitée, car ces descriptions capturent principalement des indices sémantiques intuitifs, par exemple les contours de masque, tout en peinant à percevoir des motifs visuels fins. Pour remédier à cette limite, nous intégrons des outils visuels externes dans les MLLM afin d'encourager une investigation plus approfondie des indices subtils de spoofing. Plus précisément, nous proposons le cadre Tool-Augmented Reasoning FAS (TAR-FAS), qui reformule la tâche FAS comme un paradigme Chain-of-Thought with Visual Tools (CoT-VT), permettant aux MLLM de commencer par des observations intuitives puis d'invoquer de manière adaptative des outils visuels externes pour une investigation fine. À cette fin, nous concevons un pipeline d'annotation de données augmenté par outils et construisons le jeu de données ToolFAS-16K, qui contient des trajectoires de raisonnement multi-tours avec usage d'outils. En outre, nous introduisons un pipeline d'entraînement FAS sensible aux outils, dans lequel Diverse-Tool Group Relative Policy Optimization (DT-GRPO) permet au modèle d'apprendre de manière autonome un usage efficace des outils. Des expériences approfondies dans un protocole inter-domaines difficile un-vers-onze montrent que TAR-FAS atteint des performances SOTA tout en fournissant une investigation visuelle fine pour une détection de spoofing digne de confiance.

Point de départ de la recherche

Les systèmes de Face Anti-Spoofing s'effondrent souvent lorsque le style d'attaque change, car ils surapprennent silencieusement un petit ensemble d'artéfacts récurrents issus des jeux d'entraînement. Les auteurs partent de l'écart entre la performance sur benchmark et la robustesse en conditions réelles, où de nouvelles attaques imprimées, replay attacks ou spoofs génératifs peuvent avoir un aspect inédit. Ils reformulent donc le problème comme un passage du simple pattern matching vers un processus plus explicite de recherche de preuves et de raisonnement.

Méthode

L'article propose un cadre de raisonnement augmenté par outils pour un Face Anti-Spoofing généralisable, dans lequel le modèle ne s'arrête pas à une première impression visuelle mais collecte progressivement des indices de soutien. Au lieu de faire confiance à un unique classifieur end-to-end censé absorber tous les signaux d'attaque, la méthode met l'accent sur des étapes d'investigation intermédiaires et sur une intégration explicite des preuves. Cette conception vise à rendre le jugement de liveness moins dépendant d'artéfacts de dataset fragiles et plus résilient face à des formats de spoof inconnus.

À retenir

Même si l'article est formulé autour de l'anti-spoofing, son message plus large concerne toute la pile de détection et de vérification faciale : la robustesse vient d'une meilleure collecte des preuves, pas seulement de backbones plus grands. Pour les praticiens, l'idée est convaincante parce que le liveness constitue souvent le premier point de défaillance réel dans les systèmes de KYC et de contrôle d'accès. Un détecteur capable de raisonner sur les preuves de spoof au lieu de mémoriser un dataset pourrait être bien plus utile en production.