作者与机构
Chenkai Zhang
Independent Researcher, Wenzhou, Zhejiang, China
解决了什么问题
论文要解决的是:在人头运动、短校准流程和运行时限制下,如何让基于关键点的人脸几何方案真正可部署。
关键结果
导出的 eye-focused 编码器 ONNX 大小仅 4.76 MB,在浏览器中单样本推理约 12.6 ms,并在固定注视评测中持续优于 Elastic Net。
摘要
实际可部署的摄像头视线追踪系统不仅受误差影响,还受到校准负担、头部运动与跨会话漂移、运行时开销以及浏览器部署限制的制约。因此,本文关注的是更贴近部署的性能-成本平衡点,而不是依赖大规模图像 backbone 的方案。作者将基于关键点的注视点估计建模为“会话级自适应”问题:共享的几何编码器先生成特征表示,再用少量校准样本将其对齐到新的使用会话。为此,论文提出 EMC-Gaze,一种仅依赖面部关键点的轻量级方法,结合了 E(3)-等变关键点图编码器、局部眼部几何、双眼信息增强、辅助 3D 视线方向监督,以及可在 episodic 元训练中端到端求导的闭式 ridge 校准器。为减少姿态泄漏,模型还引入双视图规范化一致性损失。部署时,预测器只需要人脸关键点,并通过简短校准拟合一个会话级 ridge head。在 33 个会话、100 cm 距离的 fixation-style 交互评测中,EMC-Gaze 在 9 点校准后达到 5.79 +/- 1.81 度 RMSE,优于 Elastic Net 的 6.68 +/- 2.34 度;在静止头部查询上优势更明显(2.92 +/- 0.75 度 vs. 4.45 +/- 0.30 度)。在 3 组各 10 名受试者的 holdout 测试中,EMC-Gaze 仍保持优势(5.66 +/- 0.19 度 vs. 6.49 +/- 0.33 度)。在 MPIIFaceGaze 上,眼部聚焦模型在 16-shot 校准时达到 8.82 +/- 1.21 度,并从 3-shot 起持续优于 Elastic Net。导出的编码器仅有 944,423 个参数,ONNX 体积为 4.76 MB,在 Chromium 145 + ONNX Runtime Web 中的单样本推理延迟为 12.58/12.58/12.90 ms(均值/中位数/p90)。这些结果说明,EMC-Gaze 更适合作为一个校准友好、可浏览器部署的实际方案,而不是去与更重的外观式系统争夺通用 SOTA。
研究出发点
在很多真实的摄像头应用里,最棘手的问题并不是“能不能检测到一张脸”,而是如何在会话漂移、自然头动、极短校准流程以及浏览器端算力限制下保持几何估计稳定。本文的出发点是,很多高精度 gaze 系统默认了更重的运行时环境和更理想的硬件条件,这与真实部署并不匹配。因此作者把目标缩小到一个更实际的工作点:仅依赖 landmark 的轻量推理,同时保留快速的会话自适应能力。
方法概述
EMC-Gaze 把基于关键点的 gaze 估计重新建模为“按会话适配”的问题。系统把 E(3)-equivariant landmark 图编码器、更细致的眼部局部几何、双眼融合机制,以及闭式 ridge 校准头结合起来,并在元训练阶段直接对这个校准过程反向传播。与此同时,作者还加入 canonicalization consistency 与训练阶段的辅助 3D gaze 监督,让模型在表征层就学会抗姿态扰动,而不是把问题留给部署时的大模型。
论文总结
这篇论文最有价值的地方在于它非常强调“能部署”。作者并没有试图在所有重型 appearance-based gaze tracker 上全面超越,而是证明了一个小型 ONNX 模型配合极短校准,就可以在经典几何基线上取得可观提升。对于做浏览器端或边缘端人脸分析的团队来说,这是一种非常现实的思路:少追一点榜单表现,换来更强的工程适配性。