저자 및 소속
Unsal Ozturk
Idiap Research Institute, Switzerland
Hatef Otroshi Shahreza
Idiap Research Institute, Switzerland
Sebastien Marcel
Idiap Research Institute, Switzerland
해결하는 문제
이 연구는 IJB-C와 RFW에서 인종 및 성별 집단별 벤치마크를 구축해, 겉보기에는 강력한 MLLM이 실제로도 공정한지 정량화할 수 있게 한다.
핵심 결과
FaceLLM-8B는 범용 MLLM 베이스라인을 분명하게 앞서지만, 가장 정확한 모델이 항상 가장 공정한 것은 아니며 전반적으로 성능이 낮은 시스템이 인위적으로 공정해 보일 수 있음을 보여준다.
초록
최근 Multimodal Large Language Models(MLLMs)는 두 얼굴 이미지가 동일 인물인지 판단하는 얼굴 검증 시스템으로 탐구되고 있다. 전용 얼굴 인식 시스템과 달리, MLLMs는 시각 프롬프팅을 통해 이 과제에 접근하며 일반적인 시각 능력과 추론 능력에 의존한다. 그러나 이러한 모델의 인구통계학적 공정성은 아직 거의 탐색되지 않았다. 본 논문은 2B에서 8B 파라미터 규모의 6개 모델 패밀리에 속하는 9개의 오픈소스 MLLM을 대상으로, 4개 인종 그룹과 2개 성별 그룹에 걸쳐 IJB-C 및 RFW 얼굴 검증 프로토콜에서 평가한 벤치마킹 연구를 제시한다. 각 인구통계 그룹별로 Equal Error Rate와 여러 동작점에서의 True Match Rate로 검증 정확도를 측정하고, 4개의 FMR 기반 공정성 지표로 인구통계학적 격차를 정량화한다. 실험 결과, 본 연구에서 유일한 얼굴 특화 모델인 FaceLLM-8B가 두 벤치마크 모두에서 범용 MLLM을 크게 능가한다. 또한 우리가 관찰한 편향 패턴은 전통적인 얼굴 인식에서 흔히 보고되는 양상과 다르며, 어떤 그룹이 가장 큰 영향을 받는지는 벤치마크와 모델에 따라 달라진다. 더 나아가 가장 정확한 모델이 반드시 가장 공정한 것은 아니며, 전체 정확도가 낮은 모델은 모든 인구통계 그룹에서 일관되게 높은 오류율을 내기 때문에 겉보기에는 공정해 보일 수 있음을 확인했다.
연구 출발점
멀티모달 대규모 언어 모델은 전통적인 생체인식 시스템처럼 작업 특화 학습 파이프라인을 거치지 않아도 일반적인 시각 추론으로 이미지를 비교할 수 있기 때문에 얼굴 검증 워크플로에 들어오기 시작했다. 이런 유연성은 매력적이지만, 평균 성능은 괜찮아 보여도 성별이나 인종 집단 사이의 큰 성능 격차를 숨긴 채 배포될 수 있다는 새로운 문제를 만든다. 이 논문의 출발점은 실제 배포에서 중요한 하위 집단 차이를 표준 생체인식 데이터셋에서 측정할 수 있는, MLLM형 얼굴 검증용 공정성 벤치마크가 부족하다는 점이다.
방법
저자들은 6개 계열의 오픈소스 MLLM 9종을 IJB-C와 RFW에서 평가하면서, 이를 범용 채팅 모델이 아니라 얼굴 검증 시스템으로 다뤘다. 각 하위 집단에 대해 Equal Error Rate와 여러 operating point에서의 True Match Rate를 보고하고, False Match Rate 격차에 기반한 4개의 공정성 지표를 추가해 절대 정확도와 집단 간 불균형을 함께 포착했다. 이 설계 덕분에 이 논문은 단순한 리더보드 비교를 넘어, 모델이 서로 다른 인구 집단에서 일관되게 신뢰할 수 있는지를 점검하는 진단 템플릿으로도 쓸 수 있다.
논문 요약
이 논문이 말하는 핵심은 다음 얼굴 검증 논쟁이 대규모 멀티모달 모델이 작동하느냐가 아니라, 공정하게 작동하느냐로 이동하고 있다는 점이다. FaceLLM-8B가 전체 성능에서는 가장 좋지만, 가장 정확한 시스템이 자동으로 가장 공정한 시스템이 되지는 않는다. AI 기반 신원 검증을 평가하는 팀에게 하위 집단별 보고는 이제 사후적인 규정 준수 항목이 아니라 기본 요구사항이 되고 있다.