リサーチレーダー顔検出arXiv2026年3月

Monthly arXiv Radar

2026年3月の顔検出レーダー: ランドマークパイプライン、較正、アンチスプーフィング

2026年3月のarXivでは、純粋な顔検出器そのものを主題にした論文は比較的少なかった。そこで本レーダーでは、顔検出スタック全体へと視野を広げ、ランドマーク抽出、較正しやすい幾何表現、そして本番の顔認識の直前に置かれるアンチスプーフィング検査まで含めて扱う。この広い枠組みの方が、実運用の顔検出システムがどのように評価され、導入されるかをよりよく反映している。

本月の重要シグナル

共通する主題はデプロイメントの現実性だ。軽量な幾何パイプライン、セッション適応、そして liveness reasoning は、商用の顔スタックでは純粋な検出性能と同じくらい重要になりつつある。

論文 012026-03-12cs.CV

ランドマークベースWebcam視線追跡のためのデプロイメント志向セッション単位メタ較正

arXiv PDF

著者・所属

Chenkai Zhang

Independent Researcher, Wenzhou, Zhejiang, China

何を解決するか

この論文は、セッションごとの限られたキャリブレーション予算、頭部運動、実行時制約の下で、ランドマークベースの顔幾何をどう実運用可能にするかを扱う。

主要結果

出力される眼部重視エンコーダは ONNX でわずか 4.76 MB で、サンプル当たり約 12.6 ms の較正済みブラウザ推論を実現し、fixation-style 評価全体で Elastic Net を上回った。

要旨

実用的なWebcam視線追跡は、誤差だけでなく、キャリブレーション負荷、頭部運動やセッションドリフトへの頑健性、実行時フットプリント、そしてブラウザ利用によっても制約される。そのため本研究では、大規模バックボーンを用いる画像中心の設定ではなく、デプロイメント志向の動作点を対象とする。ランドマークベースの注視点推定をセッション単位の適応として定式化し、共有幾何エンコーダが埋め込みを生成し、それを少数のキャリブレーションセットから新しいセッションへ整合させる。そこで、Equivariant Meta-Calibrated Gaze（EMC-Gaze）を提案する。これは軽量なランドマーク専用手法であり、E(3)-equivariantなランドマークグラフエンコーダ、局所的な眼球幾何、両眼重視、補助的な3D視線方向監督、およびエピソード型メタ学習を通じて微分可能な閉形式ridge calibratorを組み合わせる。姿勢リークを低減するため、2視点canonicalization consistency lossを用いる。実運用時の予測器は顔ランドマークのみを使用し、短時間のキャリブレーションからセッションごとのridge headを学習する。100 cmでの33セッションにわたるfixationスタイルの対話的評価では、EMC-Gazeは9点キャリブレーション後に5.79 +/- 1.81 deg RMSEを達成し、Elastic Netの6.68 +/- 2.34 degを上回った。この優位性は静止頭部クエリでより大きく、2.92 +/- 0.75 degに対して4.45 +/- 0.30 degであった。10被験者ずつの3つの被験者ホールドアウトでも、EMC-Gazeは優位を維持し、5.66 +/- 0.19 degに対して6.49 +/- 0.33 degであった。MPIIFaceGazeにおける短時間セッション別キャリブレーションでも、眼重視モデルは16-shot calibrationで8.82 +/- 1.21 degに到達し、1-shotではElastic Netと同等、3-shot以降ではそれを上回った。エクスポートされた眼重視エンコーダは944,423パラメータを持ち、ONNXで4.76 MBであり、Chromium 145上のONNX Runtime Webで12.58/12.58/12.90 ms per sample（mean/median/p90）の校正済みブラウザ予測をサポートする。これらの結果は、EMC-Gazeが、より重い外観ベースシステムに対する普遍的なstate of the artの主張ではなく、キャリブレーションしやすい実運用上の動作点であることを示している。

研究の出発点

多くの実用的なWebcamパイプラインでは、課題は顔を検出できるかどうかではなく、セッションドリフト、自然な頭部運動、短いキャリブレーション、そしてブラウザ側の計算制約の下で幾何推定をどれだけ安定に保てるかにある。著者は、高精度な視線推定システムの多くが、実運用では支えられない重い実行環境や余裕のあるハードウェアを前提としていると見る。そこで、軽量な landmark-only 推論でありながら、新しいセッションごとに素早く適応できる実用的な動作点を狙っている。

手法

EMC-Gaze は、ランドマークベース視線推定をセッション単位の適応問題として定式化する。E(3)-equivariant なランドマークグラフエンコーダ、より豊かな局所眼球幾何、両眼重視、そしてメタ学習中に微分可能な閉形式 ridge calibration head を組み合わせる。さらに canonicalization consistency と学習時の補助的な3D supervision を加え、姿勢に対する頑健性を、デプロイ時の大型モデルに任せるのではなく表現の中で学習させる。

論文要点

この論文の最大の価値は、デプロイメントの現実性にある。あらゆる重量級の appearance-based gaze tracker を打ち負かすとは主張しないが、小さな ONNX モデルと短いキャリブレーションでも、古典的な幾何ベースラインに対して意味のある改善を出せることを示した。ブラウザやエッジ側で顔分析を構築するチームにとって、これは少しのベンチマーク映えを引き換えに、はるかに高い運用適合性を得る好例だ。

論文 022026-03-25cs.CV

幾何だけで十分か? ランドマークベース視線推定の評価

arXiv PDF

著者・所属

Daniele Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Thomas Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Andrea Generosi

Department of Science and Information Technology, Universita Pegaso, Italy

Maura Mengoni

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

何を解決するか

この論文は、重い CNN パイプラインが必須だと前提せず、現代の視線データセットとクロスドメイン設定における landmark-only モデリングの真の上限を評価する。

主要結果

landmark-only モデルは同一ドメイン精度では劣るが、クロスドメイン汎化では ResNet18 系ベースラインにより近く、頑健性が重要になる場面で幾何が驚くほど競争力を保つことを示している。

要旨

外観ベースの視線推定は、しばしば深層Convolutional Neural Networks（CNNs）に依存している。これらのモデルは高精度である一方、計算コストが高く、ブラックボックスとして振る舞うため解釈可能性に乏しい。顔ランドマークに基づく幾何学的手法は軽量な代替案であるが、その性能限界と一般化能力は、現代的なベンチマークでは十分に検証されていない。本研究では、ランドマークベース視線推定の包括的評価を行う。Gaze360、ETH-XGaze、GazeGeneの3つの大規模データセットからランドマークを抽出・正規化する標準化パイプラインを導入し、軽量回帰モデルとしてExtreme Gradient Boosted treesと、2種類のニューラルアーキテクチャ、すなわち全体的なMulti-Layer Perceptron（MLP）および両眼幾何を捉えるために設計したsiamese MLPを学習する。その結果、ランドマークベースモデルは同一ドメイン内評価では低い性能を示し、これはおそらくランドマーク検出器がデータセットへ導入するノイズによるものと考えられる。それでも、クロスドメイン評価では、提案するMLPアーキテクチャがResNet18ベースラインと同程度の一般化能力を示すことが分かった。これらの知見は、疎な幾何特徴が頑健な視線推定に十分な情報を符号化していることを示唆し、効率的で解釈可能かつプライバシーに配慮したエッジ応用への道を開く。ソースコードおよび生成したランドマークベースデータセットは https://github.com/daniele-agostinelli/LandmarkGaze.git で公開されている。

研究の出発点

appearance-based モデルは現代の視線推定を支配しているが、依然として高コストで不透明であり、プライバシー重視環境では展開しにくい。landmark-only モデリングははるかに軽い代替案を約束する一方で、疎な幾何が単なる安価な近似なのか、真に競争力のある表現なのかを検証する厳密な比較は不足している。著者たちはこの空白と、顔幾何だけでデータセット横断的にどこまで情報を担えるのかという広い問いに動機づけられている。

手法

論文はまず、Gaze360、ETH-XGaze、GazeGene の3つの主要データセットから正規化された landmark-based 版を構築し、その特徴の上で XGBoost、全体型 MLP、両眼幾何に特化した siamese MLP という3種類の軽量回帰器を学習する。評価には同一ドメイン内テストとクロスドメインテストの両方が含まれ、単なるベンチマーク適合と真の汎化を切り分けられる。さらに著者らは特徴重要度を分析し、landmark detector ノイズが geometry-only システムの上限を制約する主要ボトルネックの1つだと特定している。

論文要点

最大のポイントは、幾何だけではあらゆるベンチマークに勝てないものの、クロスドメインの頑健性が重要なときには多くの人が思うよりはるかに強いということだ。最良の landmark-based MLP は同一ドメイン精度では画像モデルに及ばないが、ドメインがずれると驚くほど競争力を見せる。エッジAIやプライバシー優先製品にとって、疎な幾何は単なる研究的好奇心ではなく、戦略的に興味深い選択肢になっている。

論文 032026-03-01cs.CV

直感から調査へ: 汎化可能な顔アンチスプーフィングのためのツール拡張推論 MLLM フレームワーク

arXiv PDF

著者・所属

Haoyuan Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Baidu Inc.

Keyao Wang

Baidu Inc.

Guosheng Zhang

Baidu Inc.

Haixiao Yue

Baidu Inc.

Zhiwen Tan

Baidu Inc.

Siran Peng

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Tianshuo Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiao Tan

Baidu Inc.

Kunbin Chen

Baidu Inc.

Wei He

Baidu Inc.

Jingdong Wang

Baidu Inc.

Ajian Liu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiangyu Zhu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Zhen Lei

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

CAIR, HKISI, CAS

Macao University of Science and Technology

何を解決するか

この論文は、顔アンチスプーフィングの弱い汎化性能を対象とし、推論を強化したマルチモーダルパイプラインが攻撃証拠をより頑健に点検できるかを検討する。

主要結果

アブストラクトでは、明示的な推論と証拠統合によって顔アンチスプーフィングの汎化を強めることが中核的貢献として示されており、これは新しい攻撃形式に直面する実用 liveness システムがまさに必要とする能力である。

要旨

顔認識は依然としてpresentation attackに脆弱であり、堅牢なFace Anti-Spoofing（FAS）ソリューションが求められている。近年のMLLMベースFAS手法は、バイナリ分類課題を短いテキスト記述の生成へ再定式化することで、クロスドメイン一般化の改善を図っている。しかし、その一般化能力は依然として限定的であり、そのような記述は主として直感的な意味的手掛かり、例えばマスクの輪郭を捉える一方で、微細な視覚パターンの知覚には苦戦する。この限界に対処するため、本研究ではMLLMに外部視覚ツールを組み込み、微妙なspoof手掛かりをより深く調査できるようにする。具体的には、Tool-Augmented Reasoning FAS（TAR-FAS）フレームワークを提案し、FAS課題をChain-of-Thought with Visual Tools（CoT-VT）パラダイムとして再構成する。これにより、MLLMは直感的な観察から開始し、微細な調査のために外部視覚ツールを適応的に呼び出せる。このために、ツール拡張型データアノテーションパイプラインを設計し、複数ターンのツール利用推論軌跡を含むToolFAS-16Kデータセットを構築した。さらに、ツール認識型FAS学習パイプラインを導入し、Diverse-Tool Group Relative Policy Optimization（DT-GRPO）によって、モデルが効率的なツール利用を自律的に学習できるようにする。困難なone-to-eleven cross-domain protocolにおける大規模実験により、TAR-FASはfine-grainedな視覚調査を伴う信頼できるspoof検出を提供しつつ、SOTA性能を達成することを示した。

研究の出発点

顔アンチスプーフィングは、攻撃スタイルが変わるとしばしば崩れる。なぜなら、多くの手法が学習データセットに繰り返し現れる少数のアーティファクトに密かに過学習しているからだ。著者たちは、ベンチマーク性能と実世界の頑健性のギャップに注目している。新しい印刷攻撃、リプレイ攻撃、生成型 spoof は、既知のパターンと全く異なって見える可能性がある。そこで問題を、浅いパターン照合から、より明示的に証拠を探し推論するプロセスへ移すべきだと捉えている。

手法

論文は、一般化可能な顔アンチスプーフィングのための tool-augmented reasoning フレームワークを提案する。モデルは最初の視覚印象で止まらず、支持証拠を段階的に集めていく。単一の end-to-end classifier にすべての攻撃手掛かりを吸収させる代わりに、この手法は中間的な調査ステップと明示的な証拠統合を重視する。これにより、liveness 判定を脆いデータセットアーティファクトへの依存から遠ざけ、未知の spoof 形式に対しても粘り強くすることを狙っている。

論文要点

この論文はアンチスプーフィングを主題としているが、そのより広いメッセージは顔検出と照合のスタック全体に当てはまる。頑健性は、より大きな backbone からではなく、より良い証拠収集から生まれるということだ。実務家にとってこの考えが魅力的なのは、KYC やアクセス制御において liveness がしばしば最初の失敗点になるからである。あるデータセットの痕跡を暗記するのではなく、spoof 証拠を推論できる detector の方が、本番でははるかに有用だろう。