← Zurück zum Blog
ForschungsradarGesichtsdetektionarXivMärz 2026

Monatlicher arXiv-Radar

Face-Detection-Radar März 2026: Landmark-Pipelines, Kalibrierung und Anti-Spoofing

Streng auf Face Detector fokussierte Arbeiten waren im März 2026 auf arXiv relativ selten. Deshalb erweitert dieses Radar den Blick auf den breiteren Face-Detection-Stack: Landmark-Extraktion, kalibrierungsfreundliche Geometrie und Anti-Spoofing-Prüfungen, die in produktiven Face-Recognition-Pipelines direkt vorgeschaltet sind. Dieser breitere Zuschnitt bildet besser ab, wie reale Face-Detection-Systeme bewertet und ausgerollt werden.

Was dieser Monat zeigt

Der gemeinsame Nenner ist Deployment-Realismus: leichtgewichtige Geometrie-Pipelines, Sitzungsanpassung und Liveness-Reasoning werden in kommerziellen Face-Stacks ebenso wichtig wie die rohe Detektionsleistung.

Paper 012026-03-12cs.CV

Einsatzorientierte sitzungsweise Meta-Kalibrierung für landmarkenbasiertes Webcam-Gaze-Tracking

Autoren & Institutionen

Chenkai Zhang

Independent Researcher, Wenzhou, Zhejiang, China

Welches Problem es löst

Die Arbeit adressiert, wie sich landmarkenbasierte Gesichtsgeometrie trotz kleinem Kalibrierungsbudget pro Sitzung, Kopfbewegung und Laufzeitgrenzen praxistauglich machen lässt.

Zentrales Ergebnis

Der exportierte augenfokussierte Encoder ist in ONNX nur 4.76 MB groß, unterstützt kalibrierte Browser-Inferenz mit rund 12.6 ms pro Sample und übertrifft Elastic Net in den Fixations-evaluierungen durchgängig.

Abstract

Praktisches blickbasiertes Webcam-Tracking wird nicht nur durch den Fehler begrenzt, sondern auch durch den Kalibrierungsaufwand, die Robustheit gegenüber Kopfbewegungen und Session Drift, den Laufzeit-Footprint und die Browser-Nutzung. Wir zielen daher auf einen einsatzorientierten Betriebspunkt statt auf das Regime großer bildbasierter Backbones. Wir formulieren die landmarkenbasierte Schätzung des Point-of-Regard als sitzungsweise Anpassung: Ein gemeinsamer geometrischer Encoder erzeugt Embeddings, die mit einem kleinen Kalibrierungssatz auf eine neue Sitzung ausgerichtet werden können. Wir präsentieren Equivariant Meta-Calibrated Gaze (EMC-Gaze), eine leichtgewichtige, nur auf Landmarken basierende Methode, die einen E(3)-äquivarianten Landmark-Graph-Encoder, lokale Augengeometrie, binokulare Gewichtung, zusätzliche Supervision für die 3D-Blickrichtung und einen geschlossenen Ridge-Kalibrator kombiniert, durch den während episodischen Meta-Trainings differenziert wird. Zur Reduktion von Pose Leakage verwenden wir einen Konsistenzverlust für die Kanonisierung aus zwei Ansichten. Der eingesetzte Prädiktor verwendet nur Gesichtslandmarken und passt aus kurzer Kalibrierung einen sitzungsspezifischen Ridge-Head an. In einer interaktiven Evaluation im Fixationsstil über 33 Sitzungen bei 100 cm erreicht EMC-Gaze nach 9-Punkt-Kalibrierung 5.79 +/- 1.81 deg RMSE gegenüber 6.68 +/- 2.34 deg für Elastic Net; der Zugewinn ist bei Abfragen mit ruhigem Kopf größer (2.92 +/- 0.75 deg vs. 4.45 +/- 0.30 deg). Über drei Subject-Holdouts mit jeweils 10 Personen behält EMC-Gaze einen Vorteil (5.66 +/- 0.19 deg vs. 6.49 +/- 0.33 deg). Auf MPIIFaceGaze mit kurzer sitzungsspezifischer Kalibrierung erreicht das augenfokussierte Modell 8.82 +/- 1.21 deg bei 16-shot-Kalibrierung, liegt bei 1-shot gleichauf mit Elastic Net und übertrifft es ab 3-shot. Der exportierte augenfokussierte Encoder hat 944,423 Parameter, ist in ONNX 4.76 MB groß und unterstützt kalibrierte Browser-Vorhersagen mit 12.58/12.58/12.90 ms pro Sample (Mittelwert/Median/p90) in Chromium 145 mit ONNX Runtime Web. Diese Ergebnisse positionieren EMC-Gaze als kalibrierungsfreundlichen Betriebspunkt und nicht als universellen State-of-the-Art-Anspruch gegenüber schwergewichtigeren erscheinungsbasierten Systemen.

Ausgangspunkt der Forschung

In vielen praktischen Webcam-Pipelines besteht die eigentliche Schwierigkeit nicht darin, überhaupt ein Gesicht zu detektieren, sondern die geometrische Schätzung unter Session Drift, beiläufigen Kopfbewegungen, kurzer Kalibrierung und Browser-seitigen Rechenlimits stabil zu halten. Die Arbeit geht von der Beobachtung aus, dass viele hochpräzise Gaze-Systeme eine schwerere Laufzeitumgebung und tolerantere Hardware annehmen, als reale Deployments tragen können. Der Autor zielt deshalb auf einen engeren, aber sehr praxisnahen Betriebspunkt: leichtgewichtige landmark-only Inferenz, die sich dennoch schnell an jede neue Sitzung anpasst.

Methode

EMC-Gaze formuliert landmarkenbasierte Gaze-Schätzung als Problem sitzungsweiser Anpassung. Es kombiniert einen E(3)-äquivarianten Landmark-Graph-Encoder, reichhaltigere lokale Augengeometrie, binokulare Gewichtung und einen geschlossenen ridge calibration head, durch den während des Meta-Trainings differenziert wird. Ergänzt werden canonicalization consistency und zusätzliche 3D-Supervision im Training, sodass Pose-Robustheit in der Repräsentation gelernt wird, statt sie auf ein großes Deployment-Modell zu verschieben.

Einordnung

Der größte Wert der Arbeit liegt im Deployment-Realismus. Sie beansprucht nicht, jeden schweren appearance-based Gaze-Tracker zu schlagen, zeigt aber, dass ein kleines ONNX-Modell mit kurzer Kalibrierung dennoch spürbare Verbesserungen gegenüber klassischen geometrischen Baselines liefern kann. Für Teams, die Browser- oder Edge-seitige Gesichtsanalyse bauen, ist das ein starkes Beispiel dafür, etwas Leaderboard-Glanz gegen deutlich bessere operative Passung einzutauschen.

Paper 022026-03-25cs.CV

Reicht Geometrie aus? Eine Bewertung landmarkenbasierter Gaze-Schätzung

Autoren & Institutionen

Daniele Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Thomas Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Andrea Generosi

Department of Science and Information Technology, Universita Pegaso, Italy

Maura Mengoni

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Welches Problem es löst

Die Arbeit bewertet die tatsächliche Obergrenze landmark-only Modellierung über moderne Gaze-Datensätze und Cross-Domain-Szenarien hinweg, statt CNN-lastige Pipelines als zwingend vorauszusetzen.

Zentrales Ergebnis

Landmark-only Modelle liegen bei der Within-Domain-Genauigkeit zurück, kommen in der Cross-Domain-Generalisierung ResNet18-artigen Baselines aber deutlich näher und zeigen damit, dass Geometrie bei Robustheitsanforderungen überraschend konkurrenzfähig bleibt.

Abstract

Erscheinungsbasierte Blickschätzung stützt sich häufig auf tiefe Convolutional Neural Networks (CNNs). Diese Modelle sind genau, aber rechenintensiv und fungieren als "black boxes", die nur wenig Interpretierbarkeit bieten. Geometrische Methoden auf Basis von Gesichtslandmarken sind eine leichtgewichtige Alternative, doch ihre Leistungsgrenzen und Generalisierungsfähigkeiten sind in modernen Benchmarks noch unzureichend untersucht. In dieser Studie führen wir eine umfassende Bewertung der landmarkenbasierten Blickschätzung durch. Wir führen eine standardisierte Pipeline zur Extraktion und Normalisierung von Landmarken aus drei großskaligen Datensätzen (Gaze360, ETH-XGaze und GazeGene) ein und trainieren leichtgewichtige Regressionsmodelle, konkret Extreme Gradient Boosted Trees sowie zwei neuronale Architekturen: ein ganzheitliches Multi-Layer Perceptron (MLP) und ein siamesisches MLP zur Erfassung binokularer Geometrie. Wir stellen fest, dass landmarkenbasierte Modelle in In-Domain-Evaluierungen eine geringere Leistung zeigen, wahrscheinlich aufgrund von Rauschen, das der Landmark-Detektor in die Datensätze einbringt. In Cross-Domain-Evaluierungen weisen die vorgeschlagenen MLP-Architekturen jedoch Generalisierungsfähigkeiten auf, die mit ResNet18-Baselines vergleichbar sind. Diese Ergebnisse legen nahe, dass spärliche geometrische Merkmale genügend Information für robuste Blickschätzung kodieren und damit den Weg für effiziente, interpretierbare und datenschutzfreundliche Edge-Anwendungen ebnen. Der Quellcode und die erzeugten landmarkenbasierten Datensätze sind verfügbar unter https://github.com/daniele-agostinelli/LandmarkGaze.git.

Ausgangspunkt der Forschung

Appearance-based Modelle dominieren die moderne Blickschätzung, bleiben aber teuer, intransparent und in datenschutzsensiblen Umgebungen schwerer auszurollen. Landmark-only Modellierung verspricht eine deutlich leichtere Alternative, doch es fehlt weiterhin ein rigoroser Vergleich, der prüft, ob spärliche Geometrie nur eine billige Näherung oder eine ernsthaft konkurrenzfähige Repräsentation ist. Die Autoren werden von dieser Lücke und von der breiteren Frage motiviert, wie viel Information reine Gesichtsgeometrie über Datensätze hinweg tragen kann.

Methode

Die Arbeit konstruiert zunächst normalisierte landmark-based Versionen von drei großen Datensätzen — Gaze360, ETH-XGaze und GazeGene — und trainiert darauf drei leichtgewichtige Regressoren: XGBoost, ein ganzheitliches MLP und ein auf binokulare Geometrie zugeschnittenes siamesisches MLP. Die Evaluation umfasst sowohl Within-Domain- als auch Cross-Domain-Tests, sodass sich bloße Benchmark-Anpassung von echter Generalisierung trennen lässt. Zusätzlich analysieren die Autoren die Merkmalswichtigkeit und identifizieren Rauschen des Landmark-Detektors als einen der zentralen Engpässe für die Obergrenze geometry-only Systeme.

Einordnung

Die zentrale Erkenntnis lautet: Geometrie allein reicht nicht, um jeden Benchmark zu gewinnen, ist aber bei Cross-Domain-Robustheit viel stärker, als viele annehmen. Die besten landmark-based MLPs liegen bei der Within-Domain-Genauigkeit hinter Bildmodellen, werden aber überraschend wettbewerbsfähig, sobald sich die Domäne verschiebt. Für Edge-AI und Privacy-first-Produkte macht das spärliche Geometrie zu einer strategisch interessanten Option statt zu einer bloßen Forschungskuriosität.

Paper 032026-03-01cs.CV

Von der Intuition zur Untersuchung: Ein werkzeugerweitertes Reasoning-MLLM-Framework für generalisierbares Face Anti-Spoofing

Autoren & Institutionen

Haoyuan Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Baidu Inc.

Keyao Wang

Baidu Inc.

Guosheng Zhang

Baidu Inc.

Haixiao Yue

Baidu Inc.

Zhiwen Tan

Baidu Inc.

Siran Peng

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Tianshuo Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiao Tan

Baidu Inc.

Kunbin Chen

Baidu Inc.

Wei He

Baidu Inc.

Jingdong Wang

Baidu Inc.

Ajian Liu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiangyu Zhu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Zhen Lei

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

CAIR, HKISI, CAS

Macao University of Science and Technology

Welches Problem es löst

Die Arbeit zielt auf die schwache Generalisierung bestehender Face-Anti-Spoofing-Systeme und untersucht, ob reasoning-erweiterte multimodale Pipelines Angriffsevidenz robuster inspizieren können.

Zentrales Ergebnis

Das Abstract rahmt den Kernbeitrag als stärkere Generalisierung im Face Anti-Spoofing durch explizites Reasoning und Evidenzintegration ein — genau das, was praktische Liveness-Systeme bei neuen Angriffsformaten benötigen.

Abstract

Gesichtserkennung bleibt anfällig für Präsentationsangriffe, was robuste Face Anti-Spoofing (FAS)-Lösungen erforderlich macht. Neuere MLLM-basierte FAS-Methoden formulieren die binäre Klassifikationsaufgabe als Erzeugung kurzer textueller Beschreibungen um, um die Cross-Domain-Generalisierung zu verbessern. Ihre Generalisierbarkeit bleibt jedoch begrenzt, da solche Beschreibungen vor allem intuitive semantische Hinweise (z. B. Maskenkonturen) erfassen, während sie feingranulare visuelle Muster nur schwer wahrnehmen. Um diese Einschränkung zu überwinden, integrieren wir externe visuelle Werkzeuge in MLLMs, um eine tiefere Untersuchung subtiler Spoofing-Hinweise zu fördern. Konkret schlagen wir das Framework Tool-Augmented Reasoning FAS (TAR-FAS) vor, das die FAS-Aufgabe als Chain-of-Thought with Visual Tools (CoT-VT)-Paradigma umformuliert, sodass MLLMs mit intuitiven Beobachtungen beginnen und adaptiv externe visuelle Werkzeuge für feingranulare Untersuchungen aufrufen können. Zu diesem Zweck entwerfen wir eine tool-augmentierte Datenannotationspipeline und erstellen den Datensatz ToolFAS-16K, der mehrturnige Reasoning-Trajektorien mit Tool-Nutzung enthält. Darüber hinaus führen wir eine tool-bewusste FAS-Trainingspipeline ein, in der Diverse-Tool Group Relative Policy Optimization (DT-GRPO) dem Modell ermöglicht, eigenständig effiziente Tool-Nutzung zu erlernen. Umfangreiche Experimente unter einem anspruchsvollen one-to-eleven Cross-Domain-Protokoll zeigen, dass TAR-FAS SOTA-Leistung erreicht und zugleich feingranulare visuelle Untersuchungen für vertrauenswürdige Spoofing-Erkennung liefert.

Ausgangspunkt der Forschung

Face-Anti-Spoofing-Systeme brechen oft ein, sobald sich der Angriffsstil ändert, weil sie stillschweigend auf einen kleinen Satz wiederkehrender Artefakte aus Trainingsdatensätzen überfitten. Die Autoren werden von der Lücke zwischen Benchmark-Leistung und realer Robustheit motiviert, in der neue Print-Angriffe, Replay-Angriffe oder generative Spoofs anders aussehen können als alles zuvor Gesehene. Sie rahmen das Problem daher als Übergang von flachem Pattern Matching hin zu expliziterer Evidenzsuche und Reasoning.

Methode

Die Arbeit schlägt ein tool-augmented reasoning Framework für generalisierbares Face Anti-Spoofing vor, bei dem das Modell nicht beim ersten visuellen Eindruck stehen bleibt, sondern schrittweise stützende Evidenz sammelt. Statt einem einzelnen End-to-End-Classifier zu vertrauen, der jeden Angriffshinweis absorbieren soll, betont die Methode Zwischenuntersuchungsschritte und explizite Evidenzintegration. Dieses Design soll Liveness-Urteile weniger abhängig von brüchigen Datensatzartefakten und widerstandsfähiger gegenüber unbekannten Spoof-Formaten machen.

Einordnung

Obwohl die Arbeit um Anti-Spoofing herum formuliert ist, ist ihre breitere Botschaft für den gesamten Face-Detection- und Verification-Stack relevant: Robustheit entsteht durch bessere Evidenzgewinnung, nicht nur durch größere Backbones. Für Praktiker ist die Idee besonders überzeugend, weil Liveness in KYC- und Access-Control-Systemen oft der erste reale Ausfallpunkt ist. Ein Detector, der über Spoof-Evidenz nachdenkt, statt nur ein Datensatzmuster auswendig zu lernen, wäre in der Produktion deutlich nützlicher.