Equidade demográfica em LLMs multimodais: um benchmark de viés de gênero e etnia na verificação facial
Autores e instituições
Unsal Ozturk
Idiap Research Institute, Switzerland
Hatef Otroshi Shahreza
Idiap Research Institute, Switzerland
Sebastien Marcel
Idiap Research Institute, Switzerland
Que problema resolve
O trabalho constrói um benchmark por grupos de etnia e gênero em IJB-C e RFW para quantificar se um MLLM aparentemente forte também é justo.
Resultado-chave
O FaceLLM-8B lidera claramente entre os baselines MLLM genéricos, mas o artigo mostra que o modelo mais preciso nem sempre é o mais justo e que sistemas uniformemente fracos podem parecer artificialmente equitativos.
Resumo
Modelos Multimodais de Linguagem de Grande Escala (MLLMs) têm sido recentemente explorados como sistemas de verificação facial para determinar se duas imagens de rosto pertencem à mesma pessoa. Ao contrário dos sistemas dedicados de reconhecimento facial, os MLLMs abordam essa tarefa por meio de prompting visual e dependem de capacidades gerais de visão e raciocínio. No entanto, a equidade demográfica desses modelos permanece amplamente inexplorada. Neste artigo, apresentamos um estudo de benchmarking que avalia nove MLLMs de código aberto de seis famílias de modelos, variando de 2B a 8B parâmetros, nos protocolos de verificação facial IJB-C e RFW em quatro grupos étnicos e dois grupos de gênero. Medimos a acurácia de verificação com a Equal Error Rate e a True Match Rate em múltiplos pontos de operação por grupo demográfico, e quantificamos a disparidade demográfica com quatro métricas de equidade baseadas em FMR. Nossos resultados mostram que o FaceLLM-8B, o único modelo especializado em faces em nosso estudo, supera substancialmente os MLLMs de propósito geral em ambos os benchmarks. Os padrões de viés observados diferem daqueles comumente relatados para o reconhecimento facial tradicional, com grupos diferentes sendo os mais afetados dependendo do benchmark e do modelo. Também observamos que os modelos mais precisos não são necessariamente os mais justos e que modelos com baixa acurácia geral podem parecer justos simplesmente porque produzem taxas de erro uniformemente altas em todos os grupos demográficos.
Ponto de partida da pesquisa
Modelos multimodais de linguagem de grande escala estão começando a aparecer em fluxos de verificação facial porque conseguem comparar imagens por meio de raciocínio visual geral sem depender da mesma pipeline de treinamento específica da tarefa usada por sistemas biométricos clássicos. Essa flexibilidade é atraente, mas cria um novo problema: equipes podem implantar um modelo que parece competente em média enquanto esconde grandes diferenças de desempenho entre grupos de gênero ou etnia. O artigo é motivado pela falta de um benchmark de equidade adaptado à verificação facial no estilo MLLM, especialmente em conjuntos biométricos padrão nos quais diferenças entre subgrupos importam em implantações reais.
Método
Os autores avaliam nove MLLMs de código aberto de seis famílias em IJB-C e RFW, tratando-os como sistemas de verificação facial e não como modelos genéricos de chat. Eles reportam Equal Error Rate e True Match Rate em múltiplos pontos de operação para cada subgrupo e acrescentam quatro métricas de equidade baseadas em disparidades de False Match Rate, para que a avaliação capture tanto a acurácia bruta quanto o desequilíbrio entre grupos. Com isso, o trabalho serve não apenas como comparação de leaderboard, mas também como modelo diagnóstico para compradores e pesquisadores que precisam perguntar se um modelo é consistentemente confiável entre populações.
Síntese do artigo
A principal lição é que o próximo debate sobre verificação facial já não será apenas se grandes modelos multimodais funcionam, mas se funcionam de forma justa. O FaceLLM-8B entrega o melhor desempenho geral, porém o sistema mais preciso não é automaticamente o mais equitativo. Para equipes que avaliam verificação de identidade baseada em IA, relatórios por subgrupos estão se tornando requisito básico, e não um adendo tardio de conformidade.