Méta-calibration par session orientée déploiement pour le suivi du regard par webcam fondé sur des landmarks
Auteurs & institutions
Chenkai Zhang
Independent Researcher, Wenzhou, Zhejiang, China
Problème traité
L'article traite de la manière de rendre praticable une géométrie faciale fondée sur des landmarks avec peu de calibration par session, des mouvements de tête et des contraintes d'exécution.
Résultat clé
L'encodeur exporté centré sur les yeux ne fait que 4.76 MB en ONNX, permet une inférence calibrée dans le navigateur autour de 12.6 ms par échantillon et surpasse Elastic Net sur l'ensemble des évaluations de type fixation.
Résumé
Le suivi du regard pratique par webcam est limité non seulement par l'erreur, mais aussi par la charge de calibration, la robustesse aux mouvements de tête et à la dérive entre sessions, l'empreinte d'exécution et l'usage en navigateur. Nous visons donc un point de fonctionnement orienté déploiement plutôt que le régime d'images avec grands backbones. Nous formulons l'estimation du point de regard fondée sur des landmarks comme une adaptation par session : un encodeur géométrique partagé produit des embeddings pouvant être alignés sur une nouvelle session à partir d'un petit ensemble de calibration. Nous présentons Equivariant Meta-Calibrated Gaze (EMC-Gaze), une méthode légère fondée uniquement sur les landmarks, qui combine un encodeur de graphe de landmarks E(3)-équivariant, une géométrie locale des yeux, une emphase binoculaire, une supervision auxiliaire de direction du regard en 3D, et un calibrateur ridge à forme fermée différencié via un meta-training épisodique. Pour réduire les fuites de pose, nous utilisons une perte de cohérence de canonicalisation à deux vues. Le prédicteur déployé n'utilise que les landmarks faciaux et ajuste une tête ridge par session à partir d'une brève calibration. Dans une évaluation interactive de type fixation sur 33 sessions à 100 cm, EMC-Gaze atteint 5.79 +/- 1.81 deg de RMSE après une calibration en 9 points, contre 6.68 +/- 2.34 deg pour Elastic Net ; le gain est plus important sur les requêtes à tête immobile (2.92 +/- 0.75 deg contre 4.45 +/- 0.30 deg). Sur trois partitions holdout par sujet de 10 sujets chacune, EMC-Gaze conserve un avantage (5.66 +/- 0.19 deg contre 6.49 +/- 0.33 deg). Sur MPIIFaceGaze avec une courte calibration par session, le modèle centré sur les yeux atteint 8.82 +/- 1.21 deg avec une calibration 16-shot, fait jeu égal avec Elastic Net à 1-shot, et le surpasse à partir de 3-shot. L'encodeur exporté centré sur les yeux comporte 944,423 paramètres, occupe 4.76 MB en ONNX, et prend en charge une prédiction calibrée dans le navigateur en 12.58/12.58/12.90 ms par échantillon (mean/median/p90) dans Chromium 145 avec ONNX Runtime Web. Ces résultats positionnent EMC-Gaze comme un point de fonctionnement favorable à la calibration, plutôt qu'une revendication universelle d'état de l'art face à des systèmes plus lourds fondés sur l'apparence.
Point de départ de la recherche
Dans de nombreuses pipelines webcam réelles, la difficulté principale n'est pas de détecter un visage, mais de maintenir une estimation géométrique stable malgré la dérive entre sessions, les mouvements de tête ordinaires, une calibration très courte et les contraintes de calcul côté navigateur. L'article part du constat que beaucoup de systèmes de gaze très précis supposent un environnement d'exécution plus lourd et un matériel plus permissif que ce qu'autorisent les déploiements réels. L'auteur vise donc un point de fonctionnement plus resserré mais très pratique : une inférence landmark-only légère capable de s'adapter rapidement à chaque nouvelle session.
Méthode
EMC-Gaze reformule l'estimation du regard fondée sur les landmarks comme un problème d'adaptation par session. Il combine un encodeur de graphe de landmarks E(3)-équivariant, une géométrie locale de l'œil plus riche, une emphase binoculaire et une tête de calibration ridge en forme fermée différenciée durant le méta-entraînement. La méthode ajoute aussi canonicalization consistency et une supervision 3D auxiliaire à l'entraînement afin que la robustesse à la pose soit apprise dans la représentation plutôt que reportée sur un gros modèle au déploiement.
À retenir
La valeur principale de l'article réside dans son réalisme de déploiement. Il ne prétend pas battre tous les gaze trackers appearance-based lourds, mais montre qu'un petit modèle ONNX avec une calibration courte peut tout de même apporter des gains significatifs face aux baselines géométriques classiques. Pour les équipes qui construisent de l'analyse faciale dans le navigateur ou à l'edge, c'est un bon exemple de compromis entre un peu moins d'éclat sur leaderboard et un bien meilleur ajustement opérationnel.