Einsatzorientierte sitzungsweise Meta-Kalibrierung für landmarkenbasiertes Webcam-Gaze-Tracking
Autoren & Institutionen
Chenkai Zhang
Independent Researcher, Wenzhou, Zhejiang, China
Welches Problem es löst
Die Arbeit adressiert, wie sich landmarkenbasierte Gesichtsgeometrie trotz kleinem Kalibrierungsbudget pro Sitzung, Kopfbewegung und Laufzeitgrenzen praxistauglich machen lässt.
Zentrales Ergebnis
Der exportierte augenfokussierte Encoder ist in ONNX nur 4.76 MB groß, unterstützt kalibrierte Browser-Inferenz mit rund 12.6 ms pro Sample und übertrifft Elastic Net in den Fixations-evaluierungen durchgängig.
Abstract
Praktisches blickbasiertes Webcam-Tracking wird nicht nur durch den Fehler begrenzt, sondern auch durch den Kalibrierungsaufwand, die Robustheit gegenüber Kopfbewegungen und Session Drift, den Laufzeit-Footprint und die Browser-Nutzung. Wir zielen daher auf einen einsatzorientierten Betriebspunkt statt auf das Regime großer bildbasierter Backbones. Wir formulieren die landmarkenbasierte Schätzung des Point-of-Regard als sitzungsweise Anpassung: Ein gemeinsamer geometrischer Encoder erzeugt Embeddings, die mit einem kleinen Kalibrierungssatz auf eine neue Sitzung ausgerichtet werden können. Wir präsentieren Equivariant Meta-Calibrated Gaze (EMC-Gaze), eine leichtgewichtige, nur auf Landmarken basierende Methode, die einen E(3)-äquivarianten Landmark-Graph-Encoder, lokale Augengeometrie, binokulare Gewichtung, zusätzliche Supervision für die 3D-Blickrichtung und einen geschlossenen Ridge-Kalibrator kombiniert, durch den während episodischen Meta-Trainings differenziert wird. Zur Reduktion von Pose Leakage verwenden wir einen Konsistenzverlust für die Kanonisierung aus zwei Ansichten. Der eingesetzte Prädiktor verwendet nur Gesichtslandmarken und passt aus kurzer Kalibrierung einen sitzungsspezifischen Ridge-Head an. In einer interaktiven Evaluation im Fixationsstil über 33 Sitzungen bei 100 cm erreicht EMC-Gaze nach 9-Punkt-Kalibrierung 5.79 +/- 1.81 deg RMSE gegenüber 6.68 +/- 2.34 deg für Elastic Net; der Zugewinn ist bei Abfragen mit ruhigem Kopf größer (2.92 +/- 0.75 deg vs. 4.45 +/- 0.30 deg). Über drei Subject-Holdouts mit jeweils 10 Personen behält EMC-Gaze einen Vorteil (5.66 +/- 0.19 deg vs. 6.49 +/- 0.33 deg). Auf MPIIFaceGaze mit kurzer sitzungsspezifischer Kalibrierung erreicht das augenfokussierte Modell 8.82 +/- 1.21 deg bei 16-shot-Kalibrierung, liegt bei 1-shot gleichauf mit Elastic Net und übertrifft es ab 3-shot. Der exportierte augenfokussierte Encoder hat 944,423 Parameter, ist in ONNX 4.76 MB groß und unterstützt kalibrierte Browser-Vorhersagen mit 12.58/12.58/12.90 ms pro Sample (Mittelwert/Median/p90) in Chromium 145 mit ONNX Runtime Web. Diese Ergebnisse positionieren EMC-Gaze als kalibrierungsfreundlichen Betriebspunkt und nicht als universellen State-of-the-Art-Anspruch gegenüber schwergewichtigeren erscheinungsbasierten Systemen.
Ausgangspunkt der Forschung
In vielen praktischen Webcam-Pipelines besteht die eigentliche Schwierigkeit nicht darin, überhaupt ein Gesicht zu detektieren, sondern die geometrische Schätzung unter Session Drift, beiläufigen Kopfbewegungen, kurzer Kalibrierung und Browser-seitigen Rechenlimits stabil zu halten. Die Arbeit geht von der Beobachtung aus, dass viele hochpräzise Gaze-Systeme eine schwerere Laufzeitumgebung und tolerantere Hardware annehmen, als reale Deployments tragen können. Der Autor zielt deshalb auf einen engeren, aber sehr praxisnahen Betriebspunkt: leichtgewichtige landmark-only Inferenz, die sich dennoch schnell an jede neue Sitzung anpasst.
Methode
EMC-Gaze formuliert landmarkenbasierte Gaze-Schätzung als Problem sitzungsweiser Anpassung. Es kombiniert einen E(3)-äquivarianten Landmark-Graph-Encoder, reichhaltigere lokale Augengeometrie, binokulare Gewichtung und einen geschlossenen ridge calibration head, durch den während des Meta-Trainings differenziert wird. Ergänzt werden canonicalization consistency und zusätzliche 3D-Supervision im Training, sodass Pose-Robustheit in der Repräsentation gelernt wird, statt sie auf ein großes Deployment-Modell zu verschieben.
Einordnung
Der größte Wert der Arbeit liegt im Deployment-Realismus. Sie beansprucht nicht, jeden schweren appearance-based Gaze-Tracker zu schlagen, zeigt aber, dass ein kleines ONNX-Modell mit kurzer Kalibrierung dennoch spürbare Verbesserungen gegenüber klassischen geometrischen Baselines liefern kann. Für Teams, die Browser- oder Edge-seitige Gesichtsanalyse bauen, ist das ein starkes Beispiel dafür, etwas Leaderboard-Glanz gegen deutlich bessere operative Passung einzutauschen.