Equidad demográfica en LLM multimodales: un benchmark de sesgo por género y etnicidad en verificación facial
Autores e instituciones
Unsal Ozturk
Idiap Research Institute, Switzerland
Hatef Otroshi Shahreza
Idiap Research Institute, Switzerland
Sebastien Marcel
Idiap Research Institute, Switzerland
Qué problema resuelve
El trabajo construye un benchmark por grupos de etnicidad y género en IJB-C y RFW para cuantificar si un MLLM que parece fuerte también es equitativo.
Resultado clave
FaceLLM-8B lidera con claridad frente a las bases MLLM genéricas, pero el artículo muestra que el modelo más preciso no siempre es el más justo y que sistemas uniformemente débiles pueden parecer artificialmente equitativos.
Resumen
Los Multimodal Large Language Models (MLLMs) se han explorado recientemente como sistemas de verificación facial que determinan si dos imágenes de rostro pertenecen a la misma persona. A diferencia de los sistemas dedicados de reconocimiento facial, los MLLMs abordan esta tarea mediante prompting visual y dependen de capacidades generales de visión y razonamiento. Sin embargo, la equidad demográfica de estos modelos sigue estando en gran medida inexplorada. En este artículo presentamos un estudio de benchmarking que evalúa nueve MLLMs de código abierto de seis familias de modelos, con tamaños de 2B a 8B parámetros, sobre los protocolos de verificación facial de IJB-C y RFW en cuatro grupos étnicos y dos grupos de género. Medimos la precisión de verificación con Equal Error Rate y True Match Rate en múltiples puntos de operación por grupo demográfico, y cuantificamos la disparidad demográfica con cuatro métricas de equidad basadas en FMR. Nuestros resultados muestran que FaceLLM-8B, el único modelo especializado en rostros de nuestro estudio, supera sustancialmente a los MLLMs de propósito general en ambos benchmarks. Los patrones de sesgo que observamos difieren de los reportados habitualmente para el reconocimiento facial tradicional, ya que los grupos más afectados varían según el benchmark y el modelo. También observamos que los modelos más precisos no son necesariamente los más justos y que los modelos con baja precisión global pueden parecer equitativos simplemente porque producen tasas de error uniformemente altas en todos los grupos demográficos.
Punto de partida
Los modelos multimodales de lenguaje de gran tamaño empiezan a aparecer en flujos de verificación facial porque pueden comparar imágenes mediante razonamiento visual general sin depender de la misma canalización de entrenamiento específica de tarea que usan los sistemas biométricos clásicos. Esa flexibilidad resulta atractiva, pero introduce un problema nuevo: un equipo puede desplegar un modelo que parece sólido en promedio mientras oculta brechas de rendimiento grandes entre grupos de género o etnicidad. El trabajo nace de la falta de un benchmark de equidad adaptado a la verificación facial con MLLM, especialmente sobre conjuntos biométricos estándar donde las diferencias entre subgrupos importan en despliegues reales.
Método
Los autores evalúan nueve MLLM de código abierto de seis familias sobre IJB-C y RFW tratándolos como sistemas de verificación facial y no como modelos de chat genéricos. Informan Equal Error Rate y True Match Rate en múltiples puntos de operación para cada subgrupo y añaden cuatro métricas de equidad basadas en disparidades de False Match Rate, de modo que la evaluación capture tanto la precisión bruta como el desequilibrio entre grupos. Así, el trabajo funciona no solo como comparación de leaderboard, sino también como plantilla diagnóstica para compradores e investigadores que necesitan saber si un modelo es consistentemente fiable entre poblaciones.
Conclusión del artículo
La principal conclusión es que el próximo debate sobre verificación facial ya no trata solo de si los grandes modelos multimodales funcionan, sino de si funcionan con equidad. FaceLLM-8B obtiene el mejor rendimiento global, pero el sistema más preciso no es automáticamente el más justo. Para los equipos que evalúan verificación de identidad basada en IA, el reporte por subgrupos está pasando de ser un extra de cumplimiento a un requisito básico.