Демографическая справедливость в мультимодальных LLM: бенчмарк гендерного и этнического смещения в верификации лиц
Авторы и организации
Unsal Ozturk
Idiap Research Institute, Switzerland
Hatef Otroshi Shahreza
Idiap Research Institute, Switzerland
Sebastien Marcel
Idiap Research Institute, Switzerland
Какую задачу решает
Работа строит бенчмарк по этническим и гендерным группам на IJB-C и RFW, чтобы количественно оценивать, является ли внешне сильная MLLM также справедливой.
Ключевой результат
FaceLLM-8B заметно превосходит универсальные MLLM-бейзлайны, но работа показывает, что самая точная модель не всегда самая справедливая, а равномерно слабые системы могут выглядеть искусственно справедливыми.
Аннотация
Мультимодальные большие языковые модели (MLLM) в последнее время рассматриваются как системы верификации лиц, определяющие, принадлежат ли два изображения лица одному и тому же человеку. В отличие от специализированных систем распознавания лиц, MLLM решают эту задачу через визуальный prompting и опираются на общие способности к визуальному восприятию и рассуждению. Однако демографическая справедливость таких моделей по-прежнему почти не исследована. В этой работе мы представляем бенчмаркинговое исследование, в котором оцениваются девять open-source MLLM из шести семейств моделей, с числом параметров от 2B до 8B, на протоколах верификации лиц IJB-C и RFW по четырем этническим группам и двум гендерным группам. Мы измеряем точность верификации с помощью Equal Error Rate и True Match Rate в нескольких рабочих точках для каждой демографической группы, а демографические различия количественно оцениваем с помощью четырех метрик справедливости на основе FMR. Наши результаты показывают, что FaceLLM-8B, единственная специализированная на лицах модель в нашем исследовании, значительно превосходит MLLM общего назначения на обоих бенчмарках. Наблюдаемые нами паттерны смещения отличаются от тех, которые обычно сообщаются для традиционного распознавания лиц: наиболее затронутые группы зависят от конкретного бенчмарка и модели. Мы также отмечаем, что самые точные модели не обязательно являются самыми справедливыми, а модели с низкой общей точностью могут казаться справедливыми лишь потому, что демонстрируют одинаково высокие уровни ошибок во всех демографических группах.
Отправная точка исследования
Мультимодальные большие языковые модели начинают появляться в пайплайнах верификации лиц, потому что могут сравнивать изображения за счет общего визуального рассуждения без той же специализированной обучающей схемы, что используется в классических биометрических системах. Такая гибкость привлекательна, но создает новую проблему: команда может внедрить модель, которая выглядит сильной в среднем, скрывая при этом большие разрывы в качестве между гендерными или этническими группами. Работа мотивирована отсутствием бенчмарка справедливости, специально рассчитанного на верификацию лиц в стиле MLLM, особенно на стандартных биометрических датасетах, где различия между подгруппами важны в реальном развертывании.
Метод
Авторы сравнивают девять open-source MLLM из шести семейств на IJB-C и RFW, рассматривая их именно как системы верификации лиц, а не как обычные чат-модели. Для каждой подгруппы они приводят Equal Error Rate и True Match Rate в нескольких рабочих точках, а затем добавляют четыре метрики справедливости, основанные на различиях в False Match Rate, чтобы оценка отражала и абсолютную точность, и дисбаланс между группами. Благодаря этому работа полезна не только как leaderboard-сравнение, но и как диагностический шаблон для покупателей и исследователей, которым важно понять, насколько модель стабильно надежна для разных популяций.
Вывод по статье
Главный вывод состоит в том, что следующий спор о верификации лиц будет не только о том, могут ли большие мультимодальные модели работать, но и о том, работают ли они справедливо. FaceLLM-8B показывает лучший общий результат, однако самая точная система не становится автоматически самой справедливой. Для команд, оценивающих ИИ-верификацию личности, отчетность по подгруппам превращается из запоздалой меры compliance в базовое требование.