研究雷达人脸识别arXiv2026年3月

每月 arXiv 雷达

2026 年 3 月人脸识别论文速递：公平性、更强表征与可解释比对

2026 年 3 月的人脸识别研究主要围绕三个落地方向展开：一是让验证性能在不同人群上更公平，二是在避免捷径偏差的前提下提升 embedding 区分度，三是为比对结论生成更易审计的自然语言解释。这篇月报将这些趋势整理成适合 SEO 的研究内容页。

本月趋势判断

本月最明显的信号是：单纯追求识别精度已经不够。越来越多的研究开始把公平性、可信度与证据质量视为人脸识别系统的一等指标。

论文 012026-03-26cs.CV

多模态 LLM 的人口统计公平性：人脸验证中的性别与族裔偏差基准

arXiv PDF

作者与机构

Unsal Ozturk

Idiap Research Institute, Switzerland

Hatef Otroshi Shahreza

Idiap Research Institute, Switzerland

Sebastien Marcel

Idiap Research Institute, Switzerland

解决了什么问题

论文在 IJB-C 与 RFW 上按族裔和性别建立评测框架，帮助团队判断某个看似强大的多模态模型是否同样具备公平性。

关键结果

FaceLLM-8B 明显优于通用多模态基线，但论文同时指出：最准确的模型未必最公平，而整体性能很差的系统反而可能表现出“假公平”。

摘要

近年来，多模态大语言模型（MLLM）开始被用于人脸验证任务，即判断两张人脸图像是否属于同一人。与专用的人脸识别系统不同，MLLM 主要通过视觉提示和通用视觉推理能力完成这一任务。然而，这类模型在人口统计公平性方面仍缺乏系统研究。本文对来自 6 个模型家族、参数规模在 2B 到 8B 之间的 9 个开源 MLLM 进行基准评测，覆盖 IJB-C 与 RFW 两套人脸验证协议，并细分为 4 个族裔群体和 2 个性别群体。作者使用等错误率（EER）和多个工作点下的真实匹配率（TMR）衡量不同群体的验证性能，并通过 4 个基于误匹配率（FMR）的公平性指标量化群体差异。结果表明，本文唯一的专用人脸模型 FaceLLM-8B 在两个基准上都明显优于通用 MLLM。研究还发现，这些模型呈现出的偏差模式与传统人脸识别并不完全一致，不同数据集和模型下受影响最严重的群体并不相同。作者同时指出，最准确的模型未必最公平，而整体准确率较差的模型也可能因为对所有群体都产生较高错误率而显得“看似公平”。

研究出发点

多模态大模型之所以开始进入人脸验证场景，是因为它们可以依靠通用视觉推理完成图像比对，而不必完全沿用传统生物识别系统的专用训练范式。这种灵活性很有吸引力，但也带来新风险：模型整体表现看似不错，却可能在性别或族裔群体之间存在明显性能落差。本文的研究出发点，正是填补面向 MLLM 人脸验证的公平性评测空白，尤其是在真实生物识别数据集和分群体指标层面。

方法概述

作者把 6 个系列中的 9 个开源多模态模型当作“人脸验证系统”来评估，而不是把它们简单视为聊天模型，并在 IJB-C 与 RFW 上进行系统测试。论文分别给出各子群体的 EER、不同工作点下的 TMR，并进一步加入 4 个围绕误匹配率差异构建的公平性指标，使评测既能覆盖绝对性能，也能揭示群体间不平衡。这样的方法设计，让这篇论文不仅是一次模型横评，也成为企业采购和研究评估时可直接参考的公平性审查模板。

论文总结

这篇论文说明，未来人脸验证的核心问题不再只是“大模型能不能做”，而是“它能否公平地做”。虽然 FaceLLM-8B 在整体表现上领先，但作者清楚地指出，最准确的系统并不天然意味着最公平。对于任何评估 AI 身份验证方案的团队而言，最重要的结论是：分群体性能报告正在成为一项基础要求，而不是上线之后才补做的合规动作。

论文 022026-03-16cs.CV

Good, Better, Best：用属性感知学习提升人脸嵌入判别力

arXiv PDF

作者与机构

Ana Dias

University of Beira Interior, Portugal

IT: Instituto de Telecomunicacoes

NOVA LINCS

Joao Ribeiro Pinto

Amadeus, Portugal

Hugo Proenca

University of Beira Interior, Portugal

IT: Instituto de Telecomunicacoes

Joao C. Neves

University of Beira Interior, Portugal

NOVA LINCS

解决了什么问题

这项工作试图回答：哪些属性真正有助于身份区分，哪些属性应当被抑制，因为它们与身份无关。

关键结果

核心结论是：精心挑选与身份相关的属性，效果优于盲目使用更大的属性集合；同时让模型遗忘非身份线索还能进一步提升性能。

摘要

尽管近年来人脸识别取得了显著进展，但在年龄、姿态和遮挡变化较大的场景下，系统仍然难以保持鲁棒性能。一个常见改进策略是引入人脸属性作为辅助监督，引导表征学习更加关注与身份相关的区域。然而，现有方法通常依赖固定且异质的属性集合，并默认所有属性对身份识别同等有用。作者指出，这一假设并不理想，因为不同属性对身份判别的贡献差异很大，部分属性甚至可能引入有害偏差。为此，本文提出一种属性感知的人脸识别架构，联合使用身份类别标签、与身份相关的人脸属性，以及与身份无关的属性来监督 embedding 学习。人脸属性被组织为可解释的分组，使研究者能够以更符合人类理解的方式拆解和分析各类属性的作用。标准人脸验证基准上的实验表明，身份标签与属性联合学习能够提升 embedding 的判别能力，并得到两个主要结论：（i）仅使用与身份相关的属性子集，持续优于使用更大但泛化的属性集合；（ii）显式迫使 embedding 去遗忘与身份无关的属性，比单纯不对这些属性施加监督还能带来进一步收益。此外，该方法还可作为诊断工具，用来评估人脸识别编码器的可信性：如果抑制非身份属性后精度反而提升，往往意味着模型此前依赖了与身份冗余相关的捷径特征。

研究出发点

利用人脸属性作为辅助监督来优化 embedding 已经是一个常见思路，但很多方法只是不断往模型里加入更多属性，并默认“更多信息一定更好”。作者质疑这一假设，因为并非所有属性都真正服务于身份区分，有些属性更像是捷径、数据集偏差或人群相关噪声。本文的核心出发点是：人脸识别模型需要学会有选择地吸收辅助信息，而不是盲目增加监督信号。

方法概述

论文提出了一种属性感知的人脸识别架构，把人脸属性划分为更可解释的组别，并根据它们对身份任务的价值采用不同的学习策略。与身份强相关的属性组会与主识别目标联合优化，而与身份无关的属性则通过 gradient reversal 机制被主动压制，让 embedding 不是“假装不看见”，而是真正遗忘这些误导性线索。作者随后在多个验证基准上测试效果，并把这一框架反过来用作诊断工具，检查 backbone 是否依赖某些捷径属性。

论文总结

这篇论文最值得记住的一点是：提升人脸识别效果，靠的并不是给模型塞进更多属性，而是给它正确的属性。经过筛选的身份相关属性能明显增强区分能力，而主动压制非身份线索还能带来进一步收益。对于产品团队来说，这意味着 embedding 的质量不仅取决于模型学到了什么，也取决于它成功忘掉了什么。

论文 032026-03-17cs.CV

用于人脸比对的 MLLM 文本解释

arXiv PDF

作者与机构

Redwan Sony

Department of Computer Science and Engineering, Michigan State University, East Lansing, MI, USA

Anil K. Jain

Department of Computer Science and Engineering, Michigan State University, East Lansing, MI, USA

Arun Ross

Department of Computer Science and Engineering, Michigan State University, East Lansing, MI, USA

解决了什么问题

论文评估了多模态大模型在非受控图像条件下生成的人脸比对解释，是否真的忠实于视觉证据。

关键结果

即使验证结论正确，文本解释也常常引用无法验证或并不存在的面部细节。加入传统识别器分数能提升判定结果，但并不能保证解释忠实可靠。

摘要

多模态大语言模型（MLLM）近来被提出用于为人脸识别决策生成自然语言解释，这类解释有助于提升人工可理解性，但其在非受控人脸图像上的可靠性仍缺乏研究。本文系统分析了 MLLM 在高难度 IJB-S 数据集上的人脸验证解释能力，重点关注极端姿态变化和监控场景图像。结果显示，即使 MLLM 能给出正确的验证结论，其 accompanying explanation 仍经常依赖无法验证或缺乏视觉证据支撑的“幻觉”面部属性。作者进一步研究了在输入图像之外，加入传统人脸识别系统的分数和决策信息是否有助于提升解释质量。虽然这些附加信号能够改善验证分类性能，但并不能稳定带来更忠实的解释。为了超越单纯的决策准确率来评估解释，本文提出一种基于似然比的评估框架，用于量化文本解释的证据强度。研究结果揭示了当前 MLLM 在可解释人脸识别中的根本局限，也强调了在生物识别应用中建立“可靠且值得信赖的解释评测体系”的必要性。代码已开源：https://github.com/redwankarimsony/LR-MLLMFR-Explainability。

研究出发点

在安全、取证等高风险场景中，单纯给出一个相似度分数越来越难以满足审计和解释需求，因此“可解释的人脸识别”成为一个快速升温的话题。多模态大模型看上去很适合承担这项任务，因为它们可以把 match / non-match 的判断转化为自然语言说明。作者真正想追问的是：如果这些解释听起来很合理，但实际上并不忠实于视觉证据，那么它们提供的就不是透明度，而是一种更危险的“伪解释”。

方法概述

作者在非常具有挑战性的 IJB-S 数据集上分析解释质量，这里包含监控图像和极端姿态差异，远比常见的人像比对困难。论文测试了多种提示方式，包括加入传统识别器分数与判定结果的场景，并且不仅观察模型是否给出正确 verdict，还评估这些解释是否真的具备证据价值。为此，作者提出了一个基于似然比的评估框架，把文本解释映射成更可量化的可靠性指标。

论文总结

这篇论文给可解释生物识别领域提出了一个非常明确的警告：结论正确，并不代表解释可信。即使多模态模型给出了正确的人脸比对判断，它仍然可能在解释中引用无法验证、被夸大甚至根本不存在的面部特征。对实际系统而言，这意味着可解释模块必须拥有独立的评估标准，否则“说得很像回事”的文本反而会掩盖证据基础不足的问题。