著者・所属
Unsal Ozturk
Idiap Research Institute, Switzerland
Hatef Otroshi Shahreza
Idiap Research Institute, Switzerland
Sebastien Marcel
Idiap Research Institute, Switzerland
何を解決するか
IJB-CとRFWでエスニシティ群と性別群をまたぐベンチマークを構築し、一見高性能なMLLMが実際に公平かどうかを定量化できるようにする。
主要結果
FaceLLM-8Bは汎用MLLMベースラインを明確に上回るが、最も高精度なモデルが必ずしも最も公平とは限らず、全体性能の低いモデルが見かけ上公平に見える場合もあることを示した。
要旨
近年、Multimodal Large Language Models(MLLMs)は、2枚の顔画像が同一人物かどうかを判定する顔照合システムとして検討されている。専用の顔認識システムとは異なり、MLLMsはこの課題に視覚プロンプティングを通じて取り組み、汎用的な視覚能力と推論能力に依存する。しかし、これらのモデルの人口統計学的公平性は、依然としてほとんど検討されていない。本論文では、2Bから8Bパラメータに及ぶ6つのモデルファミリーに属する9種類のオープンソースMLLMを対象に、4つのエスニシティ群と2つの性別群にわたるIJB-CおよびRFWの顔照合プロトコルで評価するベンチマーク研究を提示する。各人口統計群について、Equal Error Rateおよび複数の動作点におけるTrue Match Rateで照合精度を測定し、さらに4つのFMRベース公平性指標によって人口統計学的格差を定量化する。その結果、本研究で唯一の顔特化モデルであるFaceLLM-8Bが、両ベンチマークにおいて汎用MLLMを大幅に上回ることが分かった。また、観測されたバイアスのパターンは、従来の顔認識で一般に報告されるものとは異なり、どの群が最も影響を受けるかはベンチマークやモデルによって変化する。さらに、最も高精度なモデルが必ずしも最も公平とは限らず、全体精度の低いモデルが、すべての人口統計群で一様に高い誤り率を出すために見かけ上公平に見える場合があることも確認した。
研究の出発点
マルチモーダル大規模言語モデルは、従来のバイオメトリクスのような専用学習パイプラインなしでも、汎用的な視覚推論で画像を比較できるため、顔照合ワークフローに入り始めている。この柔軟性は魅力的だが、平均性能は高く見えても、性別やエスニシティごとに大きな性能差を隠したまま導入される危険がある。論文の動機は、実運用で重要なサブグループ差を標準データセット上で測れる、MLLM向けの顔照合公平性ベンチマークが欠けていることにある。
手法
著者らは6系統9種類のオープンソースMLLMを、汎用チャットモデルではなく顔照合システムとしてIJB-CとRFWで評価した。各サブグループについてEqual Error Rateと複数動作点でのTrue Match Rateを報告し、さらにFalse Match Rateの格差に基づく4つの公平性指標を追加して、絶対精度と群間不均衡を同時に測定する。この設計により、論文は単なるランキングではなく、モデルが集団間で一貫して信頼できるかを調べるための診断テンプレートにもなっている。
論文要点
この論文が示すのは、次の顔照合論争は大規模マルチモーダルモデルが使えるかどうかではなく、公平に機能するかどうかだという点である。FaceLLM-8Bは総合性能で最も優れるが、最高精度のシステムが自動的に最も公平になるわけではない。AI本人確認を評価するチームにとって、サブグループ別レポートはもはや後付けのコンプライアンス項目ではなく、基本要件になりつつある。