Équité démographique dans les LLM multimodaux : un benchmark du biais de genre et d'ethnicité en vérification faciale
Auteurs & institutions
Unsal Ozturk
Idiap Research Institute, Switzerland
Hatef Otroshi Shahreza
Idiap Research Institute, Switzerland
Sebastien Marcel
Idiap Research Institute, Switzerland
Problème traité
L'article construit un benchmark sur IJB-C et RFW selon des groupes d'ethnicité et de genre afin de quantifier si un MLLM apparemment performant est aussi équitable.
Résultat clé
FaceLLM-8B domine nettement les baselines MLLM généralistes, mais l'article montre aussi que le modèle le plus précis n'est pas toujours le plus équitable et que des systèmes uniformément faibles peuvent paraître artificiellement justes.
Résumé
Les modèles multimodaux de grande taille (MLLM) ont récemment été explorés comme systèmes de vérification faciale visant à déterminer si deux images de visage représentent la même personne. Contrairement aux systèmes dédiés de reconnaissance faciale, les MLLM abordent cette tâche via du prompting visuel et s'appuient sur des capacités générales de vision et de raisonnement. Cependant, l'équité démographique de ces modèles demeure largement inexplorée. Dans cet article, nous présentons une étude de benchmarking évaluant neuf MLLM open source issus de six familles de modèles, allant de 2B à 8B paramètres, sur les protocoles de vérification faciale IJB-C et RFW, selon quatre groupes ethniques et deux groupes de genre. Nous mesurons la précision de vérification avec le taux d'erreur égal (Equal Error Rate) et le True Match Rate à plusieurs points de fonctionnement pour chaque groupe démographique, et nous quantifions les disparités démographiques à l'aide de quatre métriques d'équité fondées sur le FMR. Nos résultats montrent que FaceLLM-8B, le seul modèle spécialisé sur les visages de notre étude, surpasse nettement les MLLM généralistes sur les deux benchmarks. Les schémas de biais que nous observons diffèrent de ceux généralement rapportés pour la reconnaissance faciale traditionnelle, les groupes les plus affectés variant selon le benchmark et le modèle. Nous constatons également que les modèles les plus précis ne sont pas nécessairement les plus équitables, et que des modèles à faible précision globale peuvent sembler équitables simplement parce qu'ils produisent des taux d'erreur uniformément élevés dans tous les groupes démographiques.
Point de départ de la recherche
Les grands modèles multimodaux commencent à entrer dans les workflows de vérification faciale parce qu'ils peuvent comparer des images via un raisonnement visuel général, sans reprendre la même pipeline d'entraînement spécifique à la tâche que les systèmes biométriques classiques. Cette flexibilité est attractive, mais elle crée un nouveau problème : une équipe peut déployer un modèle qui semble performant en moyenne tout en masquant de fortes disparités entre groupes de genre ou d'ethnicité. L'article part du constat qu'il manque un benchmark d'équité adapté à la vérification faciale de type MLLM, en particulier sur des jeux biométriques standard où les écarts entre sous-groupes comptent en production.
Méthode
Les auteurs évaluent neuf MLLM open source issus de six familles sur IJB-C et RFW en les traitant comme des systèmes de vérification faciale plutôt que comme de simples modèles conversationnels. Ils rapportent l'Equal Error Rate et le True Match Rate à plusieurs points de fonctionnement pour chaque sous-groupe, puis ajoutent quatre métriques d'équité fondées sur les écarts de False Match Rate afin de capturer à la fois la précision brute et les déséquilibres entre groupes. L'article devient ainsi non seulement une comparaison de leaderboard, mais aussi un modèle de diagnostic pour les acheteurs et chercheurs qui doivent vérifier si un modèle reste fiable de manière cohérente selon les populations.
À retenir
L'enseignement principal est que le prochain débat sur la vérification faciale ne portera plus seulement sur la capacité des grands modèles multimodaux à fonctionner, mais sur leur capacité à fonctionner équitablement. FaceLLM-8B offre la meilleure performance globale, mais le système le plus précis n'est pas automatiquement le plus équitable. Pour les équipes qui évaluent des solutions d'identité fondées sur l'IA, le reporting par sous-groupes devient une exigence de base plutôt qu'un simple correctif de conformité.