Demografische Fairness in multimodalen LLMs: Ein Benchmark zu Geschlechts- und Ethnizitätsbias in der Gesichtsverifikation
Autoren & Institutionen
Unsal Ozturk
Idiap Research Institute, Switzerland
Hatef Otroshi Shahreza
Idiap Research Institute, Switzerland
Sebastien Marcel
Idiap Research Institute, Switzerland
Welches Problem es löst
Die Arbeit etabliert einen Benchmark über Ethnizitäts- und Geschlechtsgruppen hinweg auf IJB-C und RFW und hilft damit zu quantifizieren, ob ein scheinbar starkes MLLM auch fair ist.
Zentrales Ergebnis
FaceLLM-8B führt die generischen MLLM-Baselines klar an, doch die Arbeit zeigt auch, dass das genaueste Modell nicht immer das fairste ist und gleichmäßig schwache Systeme künstlich fair wirken können.
Abstract
Multimodale Large Language Models (MLLMs) wurden in jüngster Zeit als Systeme zur Gesichtsverifikation untersucht, die bestimmen, ob zwei Gesichtsaufnahmen dieselbe Person zeigen. Im Gegensatz zu spezialisierten Gesichtserkennungssystemen bearbeiten MLLMs diese Aufgabe über visuelles Prompting und stützen sich auf allgemeine visuelle und schlussfolgernde Fähigkeiten. Die demografische Fairness dieser Modelle ist jedoch bislang weitgehend unerforscht. In dieser Arbeit präsentieren wir eine Benchmarking-Studie, die neun Open-Source-MLLMs aus sechs Modellfamilien mit 2B bis 8B Parametern auf den Gesichtsverifikationsprotokollen von IJB-C und RFW über vier Ethnizitätsgruppen und zwei Geschlechtsgruppen hinweg evaluiert. Wir messen die Verifikationsgenauigkeit mit der Equal Error Rate und der True Match Rate an mehreren Betriebspunkten pro demografischer Gruppe und quantifizieren demografische Disparitäten mit vier FMR-basierten Fairness-Metriken. Unsere Ergebnisse zeigen, dass FaceLLM-8B, das einzige gesichtsspezialisierte Modell in unserer Studie, allgemeine MLLMs auf beiden Benchmarks deutlich übertrifft. Die von uns beobachteten Verzerrungsmuster unterscheiden sich von den Mustern, die üblicherweise für traditionelle Gesichtserkennung berichtet werden; je nach Benchmark und Modell sind unterschiedliche Gruppen am stärksten betroffen. Außerdem stellen wir fest, dass die genauesten Modelle nicht zwangsläufig die fairsten sind und dass Modelle mit geringer Gesamtgenauigkeit fair erscheinen können, einfach weil sie über alle demografischen Gruppen hinweg gleichmäßig hohe Fehlerraten erzeugen.
Ausgangspunkt der Forschung
Multimodale große Sprachmodelle tauchen zunehmend in Workflows zur Gesichtsverifikation auf, weil sie Bilder über allgemeines visuelles Schlussfolgern vergleichen können, ohne dieselbe aufgabenspezifische Trainingspipeline wie klassische biometrische Systeme zu benötigen. Diese Flexibilität ist attraktiv, schafft aber ein neues Problem: Teams könnten ein Modell einsetzen, das im Mittel leistungsfähig wirkt, während es zugleich große Leistungslücken zwischen Geschlechts- oder Ethnizitätsgruppen verbirgt. Motiviert ist die Arbeit durch das Fehlen eines Fairness-Benchmarks, der speziell auf MLLM-artige Gesichtsverifikation zugeschnitten ist, insbesondere auf Standard-Biometriedatensätzen, bei denen Subgruppenunterschiede in realen Einsätzen relevant sind.
Methode
Die Autoren benchmarken neun Open-Source-MLLMs aus sechs Familien auf IJB-C und RFW und behandeln sie dabei als Gesichtsverifikationssysteme statt als generische Chatmodelle. Für jede Subgruppe berichten sie Equal Error Rate und True Match Rate an mehreren Betriebspunkten und ergänzen vier Fairness-Metriken auf Basis von Unterschieden in der False Match Rate, sodass sowohl Rohgenauigkeit als auch Ungleichgewichte zwischen Gruppen erfasst werden. Dadurch ist die Arbeit nicht nur ein Leaderboard-Vergleich, sondern auch eine diagnostische Vorlage für Käufer und Forschende, die prüfen müssen, ob ein Modell über Populationen hinweg konsistent verlässlich ist.
Einordnung
Die wichtigste Aussage ist, dass sich die nächste Debatte in der Gesichtsverifikation nicht mehr nur darum dreht, ob große multimodale Modelle funktionieren, sondern ob sie fair funktionieren. FaceLLM-8B erzielt die beste Gesamtleistung, doch das genaueste System ist nicht automatisch das fairste. Für Teams, die KI-gestützte Identitätsprüfung bewerten, werden Berichte nach Subgruppen damit zu einer Grundanforderung statt zu einer nachträglichen Compliance-Übung.