著者・所属
Chenkai Zhang
Independent Researcher, Wenzhou, Zhejiang, China
何を解決するか
この論文は、セッションごとの限られたキャリブレーション予算、頭部運動、実行時制約の下で、ランドマークベースの顔幾何をどう実運用可能にするかを扱う。
主要結果
出力される眼部重視エンコーダは ONNX でわずか 4.76 MB で、サンプル当たり約 12.6 ms の較正済みブラウザ推論を実現し、fixation-style 評価全体で Elastic Net を上回った。
要旨
実用的なWebcam視線追跡は、誤差だけでなく、キャリブレーション負荷、頭部運動やセッションドリフトへの頑健性、実行時フットプリント、そしてブラウザ利用によっても制約される。そのため本研究では、大規模バックボーンを用いる画像中心の設定ではなく、デプロイメント志向の動作点を対象とする。ランドマークベースの注視点推定をセッション単位の適応として定式化し、共有幾何エンコーダが埋め込みを生成し、それを少数のキャリブレーションセットから新しいセッションへ整合させる。そこで、Equivariant Meta-Calibrated Gaze(EMC-Gaze)を提案する。これは軽量なランドマーク専用手法であり、E(3)-equivariantなランドマークグラフエンコーダ、局所的な眼球幾何、両眼重視、補助的な3D視線方向監督、およびエピソード型メタ学習を通じて微分可能な閉形式ridge calibratorを組み合わせる。姿勢リークを低減するため、2視点canonicalization consistency lossを用いる。実運用時の予測器は顔ランドマークのみを使用し、短時間のキャリブレーションからセッションごとのridge headを学習する。100 cmでの33セッションにわたるfixationスタイルの対話的評価では、EMC-Gazeは9点キャリブレーション後に5.79 +/- 1.81 deg RMSEを達成し、Elastic Netの6.68 +/- 2.34 degを上回った。この優位性は静止頭部クエリでより大きく、2.92 +/- 0.75 degに対して4.45 +/- 0.30 degであった。10被験者ずつの3つの被験者ホールドアウトでも、EMC-Gazeは優位を維持し、5.66 +/- 0.19 degに対して6.49 +/- 0.33 degであった。MPIIFaceGazeにおける短時間セッション別キャリブレーションでも、眼重視モデルは16-shot calibrationで8.82 +/- 1.21 degに到達し、1-shotではElastic Netと同等、3-shot以降ではそれを上回った。エクスポートされた眼重視エンコーダは944,423パラメータを持ち、ONNXで4.76 MBであり、Chromium 145上のONNX Runtime Webで12.58/12.58/12.90 ms per sample(mean/median/p90)の校正済みブラウザ予測をサポートする。これらの結果は、EMC-Gazeが、より重い外観ベースシステムに対する普遍的なstate of the artの主張ではなく、キャリブレーションしやすい実運用上の動作点であることを示している。
研究の出発点
多くの実用的なWebcamパイプラインでは、課題は顔を検出できるかどうかではなく、セッションドリフト、自然な頭部運動、短いキャリブレーション、そしてブラウザ側の計算制約の下で幾何推定をどれだけ安定に保てるかにある。著者は、高精度な視線推定システムの多くが、実運用では支えられない重い実行環境や余裕のあるハードウェアを前提としていると見る。そこで、軽量な landmark-only 推論でありながら、新しいセッションごとに素早く適応できる実用的な動作点を狙っている。
手法
EMC-Gaze は、ランドマークベース視線推定をセッション単位の適応問題として定式化する。E(3)-equivariant なランドマークグラフエンコーダ、より豊かな局所眼球幾何、両眼重視、そしてメタ学習中に微分可能な閉形式 ridge calibration head を組み合わせる。さらに canonicalization consistency と学習時の補助的な3D supervision を加え、姿勢に対する頑健性を、デプロイ時の大型モデルに任せるのではなく表現の中で学習させる。
論文要点
この論文の最大の価値は、デプロイメントの現実性にある。あらゆる重量級の appearance-based gaze tracker を打ち負かすとは主張しないが、小さな ONNX モデルと短いキャリブレーションでも、古典的な幾何ベースラインに対して意味のある改善を出せることを示した。ブラウザやエッジ側で顔分析を構築するチームにとって、これは少しのベンチマーク映えを引き換えに、はるかに高い運用適合性を得る好例だ。