← 返回博客
研究雷达人脸检测arXiv2026年3月

每月 arXiv 雷达

2026 年 3 月人脸检测雷达:关键点管线、校准与活体防伪

2026 年 3 月 arXiv 上严格意义的人脸检测器论文并不多,因此本期将范围扩展到更符合真实产品流程的人脸检测链路:关键点提取、几何校准,以及位于识别前端的活体防伪。对于生产环境来说,这些能力往往与 detector AP 同样关键。

本月趋势判断

这些论文的共同主题是“面向部署”:轻量几何管线、会话自适应能力,以及活体推理,正在和纯检测能力一样重要。

论文 012026-03-12cs.CV

面向部署的 landmark 网页摄像头视线追踪会话级元校准

作者与机构

Chenkai Zhang

Independent Researcher, Wenzhou, Zhejiang, China

解决了什么问题

论文要解决的是:在人头运动、短校准流程和运行时限制下,如何让基于关键点的人脸几何方案真正可部署。

关键结果

导出的 eye-focused 编码器 ONNX 大小仅 4.76 MB,在浏览器中单样本推理约 12.6 ms,并在固定注视评测中持续优于 Elastic Net。

摘要

实际可部署的摄像头视线追踪系统不仅受误差影响,还受到校准负担、头部运动与跨会话漂移、运行时开销以及浏览器部署限制的制约。因此,本文关注的是更贴近部署的性能-成本平衡点,而不是依赖大规模图像 backbone 的方案。作者将基于关键点的注视点估计建模为“会话级自适应”问题:共享的几何编码器先生成特征表示,再用少量校准样本将其对齐到新的使用会话。为此,论文提出 EMC-Gaze,一种仅依赖面部关键点的轻量级方法,结合了 E(3)-等变关键点图编码器、局部眼部几何、双眼信息增强、辅助 3D 视线方向监督,以及可在 episodic 元训练中端到端求导的闭式 ridge 校准器。为减少姿态泄漏,模型还引入双视图规范化一致性损失。部署时,预测器只需要人脸关键点,并通过简短校准拟合一个会话级 ridge head。在 33 个会话、100 cm 距离的 fixation-style 交互评测中,EMC-Gaze 在 9 点校准后达到 5.79 +/- 1.81 度 RMSE,优于 Elastic Net 的 6.68 +/- 2.34 度;在静止头部查询上优势更明显(2.92 +/- 0.75 度 vs. 4.45 +/- 0.30 度)。在 3 组各 10 名受试者的 holdout 测试中,EMC-Gaze 仍保持优势(5.66 +/- 0.19 度 vs. 6.49 +/- 0.33 度)。在 MPIIFaceGaze 上,眼部聚焦模型在 16-shot 校准时达到 8.82 +/- 1.21 度,并从 3-shot 起持续优于 Elastic Net。导出的编码器仅有 944,423 个参数,ONNX 体积为 4.76 MB,在 Chromium 145 + ONNX Runtime Web 中的单样本推理延迟为 12.58/12.58/12.90 ms(均值/中位数/p90)。这些结果说明,EMC-Gaze 更适合作为一个校准友好、可浏览器部署的实际方案,而不是去与更重的外观式系统争夺通用 SOTA。

研究出发点

在很多真实的摄像头应用里,最棘手的问题并不是“能不能检测到一张脸”,而是如何在会话漂移、自然头动、极短校准流程以及浏览器端算力限制下保持几何估计稳定。本文的出发点是,很多高精度 gaze 系统默认了更重的运行时环境和更理想的硬件条件,这与真实部署并不匹配。因此作者把目标缩小到一个更实际的工作点:仅依赖 landmark 的轻量推理,同时保留快速的会话自适应能力。

方法概述

EMC-Gaze 把基于关键点的 gaze 估计重新建模为“按会话适配”的问题。系统把 E(3)-equivariant landmark 图编码器、更细致的眼部局部几何、双眼融合机制,以及闭式 ridge 校准头结合起来,并在元训练阶段直接对这个校准过程反向传播。与此同时,作者还加入 canonicalization consistency 与训练阶段的辅助 3D gaze 监督,让模型在表征层就学会抗姿态扰动,而不是把问题留给部署时的大模型。

论文总结

这篇论文最有价值的地方在于它非常强调“能部署”。作者并没有试图在所有重型 appearance-based gaze tracker 上全面超越,而是证明了一个小型 ONNX 模型配合极短校准,就可以在经典几何基线上取得可观提升。对于做浏览器端或边缘端人脸分析的团队来说,这是一种非常现实的思路:少追一点榜单表现,换来更强的工程适配性。

论文 022026-03-25cs.CV

几何信息足够吗?基于 landmark 的视线估计评测

作者与机构

Daniele Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Thomas Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Andrea Generosi

Department of Science and Information Technology, Universita Pegaso, Italy

Maura Mengoni

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

解决了什么问题

这篇论文评估了 landmark-only 方法在现代 gaze 数据集和跨域条件下的真实上限,而不是默认必须使用重型 CNN 管线。

关键结果

landmark-only 模型在同域精度上略弱,但在跨域泛化上与 ResNet18 类基线更接近,说明当鲁棒性变得重要时,几何信息依然非常有竞争力。

摘要

基于外观的视线估计通常依赖深度卷积神经网络(CNN),虽然精度较高,但计算成本大且缺乏可解释性。相比之下,基于面部关键点的几何方法更加轻量,但其性能上限以及在现代基准上的泛化能力仍缺乏系统研究。本文对 landmark-based gaze estimation 进行了全面评测,并提出一套标准化流程,从 Gaze360、ETH-XGaze 和 GazeGene 三个大规模数据集中提取并归一化关键点,再训练轻量级回归模型,包括 Extreme Gradient Boosted Trees,以及两种神经网络结构:整体式多层感知机(MLP)和用于建模双眼几何关系的 siamese MLP。实验发现,在同域测试中,关键点方法性能较低,原因可能是关键点检测器给数据集引入了额外噪声;但在跨域评测中,本文提出的 MLP 架构展现出与 ResNet18 基线相当的泛化能力。研究结果说明,稀疏几何特征中已经包含了实现稳健视线估计所需的足够信息,为高效、可解释、且更友好的边缘侧隐私应用提供了新方向。代码和生成的关键点数据集已开源:https://github.com/daniele-agostinelli/LandmarkGaze.git。

研究出发点

当前的 gaze 估计主流方法大多依赖 appearance-based 模型,但它们通常成本更高、解释性更差,也不适合对隐私特别敏感的部署环境。只使用关键点几何信息看起来是一个更轻量的替代路线,但业界一直缺少系统评估,来说明它到底只是“便宜的近似方案”,还是一种真正有竞争力的表征方式。作者正是从这个空白出发,去回答 facial geometry 在跨数据集场景中究竟能承载多少有效信息。

方法概述

论文首先从 Gaze360、ETH-XGaze 与 GazeGene 三个主流数据集中抽取并标准化 landmark-only 版本数据,然后在这些几何特征上训练三类轻量回归器:XGBoost、整体式 MLP,以及更强调双眼结构的 siamese MLP。实验既包含同域评估,也包含跨域测试,因此能够把“在本数据集上拟合得好”与“真正具有泛化能力”区分开来。作者还进一步做了特征重要性分析,并指出 landmark detector 的噪声是限制 geometry-only 方法上限的重要瓶颈。

论文总结

这篇论文给出的结论并不是“几何信息足以全面取代图像模型”,而是“在跨域鲁棒性真正重要时,几何信息比很多人想象中更强”。最好的 landmark-based MLP 虽然在同域精度上仍落后于图像模型,但一旦进入 domain shift 场景,差距会明显缩小。对于 edge AI 和注重隐私的产品方向来说,这意味着 sparse geometry 已经不只是一个研究型备选方案,而是一条值得认真考虑的技术路径。

论文 032026-03-01cs.CV

用于人脸活体检测与泛化的多模态大模型推理

作者与机构

Haoyuan Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Baidu Inc.

Keyao Wang

Baidu Inc.

Guosheng Zhang

Baidu Inc.

Haixiao Yue

Baidu Inc.

Zhiwen Tan

Baidu Inc.

Siran Peng

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Tianshuo Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiao Tan

Baidu Inc.

Kunbin Chen

Baidu Inc.

Wei He

Baidu Inc.

Jingdong Wang

Baidu Inc.

Ajian Liu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiangyu Zhu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Zhen Lei

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

CAIR, HKISI, CAS

Macao University of Science and Technology

解决了什么问题

论文针对当前人脸活体防伪系统泛化能力不足的问题,研究带有推理增强的多模态管线是否能更稳健地识别攻击证据。

关键结果

摘要强调的核心贡献是:通过显式推理和证据整合提升人脸活体防伪的泛化能力,这正是实际系统面对新攻击形态时最需要的能力。

摘要

人脸识别系统仍容易受到展示攻击(presentation attack)的影响,因此需要更稳健的人脸活体检测(FAS)方案。近期一些基于多模态大模型(MLLM)的 FAS 方法将二分类任务改写为生成简短文本描述,以提升跨域泛化能力,但这类描述通常只捕捉直观语义线索(如面具轮廓),对细粒度伪造痕迹的感知仍然不足。为解决这一问题,本文把外部视觉工具引入 MLLM,让模型在判断时能够从“直觉观察”进一步走向“细节调查”。作者提出 Tool-Augmented Reasoning FAS(TAR-FAS)框架,将 FAS 任务表述为带视觉工具的思维链(CoT-VT)过程,使 MLLM 先给出初步观察,再按需调用外部视觉工具,对细微 spoof 线索进行精细分析。为支持这一范式,论文设计了带工具增强的数据标注流水线,并构建 ToolFAS-16K 数据集,其中包含多轮工具调用推理轨迹。此外,作者还提出 tool-aware 的训练流程,通过 Diverse-Tool Group Relative Policy Optimization(DT-GRPO)让模型自主学习如何高效使用工具。在极具挑战的一对十一跨域评测协议下,大量实验表明 TAR-FAS 达到了新的 SOTA,同时还能提供更细粒度的视觉调查过程,从而提升活体检测的可信性。

研究出发点

很多人脸活体防伪系统一旦遇到新的攻击形态就会迅速失效,因为它们往往只是过拟合了训练集里反复出现的一小部分伪迹模式。作者关注的是 benchmark 表现和真实场景鲁棒性之间的落差:新的打印攻击、回放攻击或生成式 spoof 很可能与历史样本完全不同。基于这一现实,他们把问题重新定义为:系统需要从浅层模式匹配走向更明确的证据搜索与推理机制。

方法概述

论文提出了一个面向泛化的人脸活体防伪推理框架,其关键不在于让模型一眼下结论,而在于让系统逐步收集支持性证据。与其指望一个端到端分类器自动吸收所有攻击信号,这一方法更强调中间层的调查步骤和显式证据融合。这样的设计目标,是让活体判断减少对脆弱数据集伪迹的依赖,从而在陌生 spoof 形式下保持更稳定的表现。

论文总结

尽管这篇论文聚焦于活体防伪,但它对整个人脸采集和验证链路都有启发:真正的鲁棒性来自更好的证据获取方式,而不只是更大的 backbone。对于实际系统而言,这一点尤其关键,因为在 KYC 和门禁场景中,liveness 往往是最先失效的环节。一个能够围绕 spoof 证据进行判断,而不是死记某个数据集伪迹的系统,显然更接近可上线形态。