← Retour au Blog
Radar de rechercheDétection facialearXivJuin 2026

Radar arXiv mensuel

Détection faciale en juin 2026 : benchmarks d’équité, détection néonatale et biais PAD

Les articles montrent une première étape biométrique plus auditée : mesure d’équité, adaptation clinique et choix d’architecture PAD.

Ce que révèle ce mois-ci

Le signal du mois est la gouvernance : labels démographiques, validation domaine et PAD évalué par accuracy et équité.

Article 012026-06-30cs.CV

WIDER-FAIR : version annotée de WIDER-FACE pour l’évaluation de l’équité

Auteurs & institutions

Maxime Moussi

UCLouvain, Louvain-la-Neuve, Belgium

Benoît Ronval

UCLouvain, ICTEAM, Louvain-la-Neuve, Belgium

Siegfried Nijssen

UCLouvain, ICTEAM, Louvain-la-Neuve, Belgium

KU Leuven, DTAI, Leuven, Belgium

Félicien Schiltz

Euranova, Mont-Saint-Guibert, Belgium

Problème traité

Il comble un manque de mesure : les benchmarks de détection incluent rarement des labels sensibles.

Résultat clé

La démonstration observe une performance plus faible pour les personnes Black ; exclure ce groupe augmente plus la disparité que les autres exclusions.

Résumé

WIDER-FAIR ajoute des annotations d’ethnie et de sexe perçus à un sous-ensemble WIDER-FACE afin d’auditer les écarts démographiques des détecteurs. La cohérence est vérifiée avec embeddings, KNN et t-SNE.

Point de départ de la recherche

La détection faciale ouvre souvent les pipelines de reconnaissance, liveness et analyse ; ses erreurs démographiques se propagent.

Méthode

Les auteurs annotent manuellement 16 256 images avec quatre ethnies perçues et deux sexes, puis réalisent des ablations pour mesurer l’effet de l’exclusion de groupes.

À retenir

WIDER-FAIR rend l’équité des détecteurs testable. Pour les fournisseurs, un bon score global peut masquer des échecs par groupe sans annotations adaptées.

Article 022026-06-18cs.CV

InfantFace : détection de visages de nourrissons en environnement clinique néonatal

Auteurs & institutions

Abdullah Bin-Obaid

Institute of Biomedical Engineering, Department of Engineering Science, University of Oxford, Oxford, United Kingdom

Maria M. Cobo

Department of Paediatrics, University of Oxford, Oxford, United Kingdom

Universidad San Francisco de Quito USFQ, Colegio de Ciencias Biológicas y Ambientales, Quito, Ecuador

Rebeccah Slater

Department of Paediatrics, University of Oxford, Oxford, United Kingdom

Lionel Tarassenko

Institute of Biomedical Engineering, Department of Engineering Science, University of Oxford, Oxford, United Kingdom

Mauricio Villarroel

Institute of Biomedical Engineering, Department of Engineering Science, University of Oxford, Oxford, United Kingdom

Problème traité

Il traite le manque de datasets néonatals publics et l’incertitude sur les détecteurs génériques en soins intensifs.

Résultat clé

Avant fine-tuning clinique, le modèle atteint AP50 0,87 et dépasse trois détecteurs génériques ; après adaptation, AP50 atteint 0,96.

Résumé

InfantFace adapte la détection faciale aux vidéos néonatales pour soutenir douleur, détresse, signaux cardio-respiratoires et respiration sans contact. YOLOv11m est affiné sur 228 vidéos de 113 nourrissons.

Point de départ de la recherche

La détection clinique diffère du grand public : faible lumière, arrière-plans chargés et équipements occultant le visage.

Méthode

Les auteurs construisent une pipeline YOLOv11m one-stage, apprennent la structure faciale générale sur datasets publics puis l’adaptent aux vidéos néonatales cibles.

À retenir

InfantFace rappelle que la détection faciale n’est pas une seule catégorie produit. En santé, adaptation de domaine et gouvernance des données priment souvent sur le dernier détecteur générique.

Article 032026-06-16cs.CV

Biais architectural dans la détection d’attaques de présentation faciale : ViT contre CNN

Auteurs & institutions

Ngela Landon Ntung

College of Engineering, Carnegie Mellon University Africa, Kigali, Rwanda

Floride Tuyisenge

College of Engineering, Carnegie Mellon University Africa, Kigali, Rwanda

Jema David Ndibwile

College of Engineering, Carnegie Mellon University Africa, Kigali, Rwanda

Problème traité

L’article demande si l’équité est seulement liée aux données ou si biais architectural et préentraînement modifient aussi le comportement intergroupes.

Résultat clé

DeiT-S préentraîné atteint 97,27 % d’accuracy et 0,86 % EER, réduit l’écart ACER à 0,13 % et donne un avantage BPCER 3,6x sur ResNet18.

Résumé

L’article compare l’effet de l’architecture sur l’équité démographique en PAD facial. Sur CASIA-SURF CeFA, il évalue ViT-Tiny multimodal, ResNet18 et DeiT-S préentraîné.

Point de départ de la recherche

Le PAD est une couche de sécurité biométrique ; des erreurs variables selon couleur de peau ou ethnie créent des risques inégaux.

Méthode

Les auteurs comparent CNN et transformers sur le même benchmark PAD, avec accuracy/EER mais aussi écarts APCER/BPCER/ACER par groupe et split zero-shot Central Asian.

À retenir

Pour les acheteurs biométriques, le choix d’architecture influence l’équité autant que l’accuracy. Les évaluations PAD doivent inclure des slices démographiques et populations inédites.