Ориентированная на развертывание посессионная метакалибровка для отслеживания взгляда по веб-камере на основе landmarks
Авторы и организации
Chenkai Zhang
Independent Researcher, Wenzhou, Zhejiang, China
Какую задачу решает
Работа решает вопрос, как сделать практичной геометрию лица на основе landmarks при малом бюджете калибровки на сессию, движении головы и runtime-ограничениях.
Ключевой результат
Экспортируемый encoder, сфокусированный на глазах, весит всего 4.76 MB в ONNX, поддерживает откалиброванную браузерную инференцию примерно за 12.6 ms на sample и превосходит Elastic Net во всех evaluation в стиле фиксации.
Аннотация
Практическое отслеживание взгляда по веб-камере ограничивается не только ошибкой, но и нагрузкой калибровки, устойчивостью к движениям головы и дрейфу между сессиями, вычислительным следом и использованием в браузере. Поэтому мы нацеливаемся на режим работы, ориентированный на развертывание, а не на режим изображений с крупными backbone-моделями. Мы рассматриваем оценку point-of-regard на основе landmarks как адаптацию на уровне сессии: общий геометрический энкодер создает эмбеддинги, которые можно выровнять под новую сессию по небольшому калибровочному набору. Мы представляем Equivariant Meta-Calibrated Gaze (EMC-Gaze), легкий метод, использующий только landmarks и сочетающий E(3)-эквивариантный энкодер графа landmarks, локальную геометрию глаз, бинокулярный акцент, вспомогательный надзор по 3D-направлению взгляда и closed-form ridge calibrator, дифференцируемый через эпизодическое meta-training. Чтобы уменьшить утечку позы, мы используем loss согласованности каноникализации по двум видам. Развернутый предиктор использует только лицевые landmarks и подстраивает per-session ridge head по краткой калибровке. В интерактивной оценке в стиле фиксации на 33 сессиях при 100 cm EMC-Gaze достигает 5.79 +/- 1.81 deg RMSE после 9-point calibration против 6.68 +/- 2.34 deg у Elastic Net; выигрыш больше на запросах с неподвижной головой (2.92 +/- 0.75 deg против 4.45 +/- 0.30 deg). На трех holdout-разбиениях по субъектам по 10 человек в каждом EMC-Gaze сохраняет преимущество (5.66 +/- 0.19 deg против 6.49 +/- 0.33 deg). На MPIIFaceGaze при короткой калибровке на сессию модель, сфокусированная на глазах, достигает 8.82 +/- 1.21 deg при 16-shot calibration, сравнивается с Elastic Net при 1-shot и превосходит его начиная с 3-shot. Экспортированный eye-focused encoder содержит 944,423 параметра, занимает 4.76 MB в ONNX и поддерживает откалиброванное предсказание в браузере за 12.58/12.58/12.90 ms на sample (mean/median/p90) в Chromium 145 с ONNX Runtime Web. Эти результаты позиционируют EMC-Gaze как удобный для калибровки рабочий режим, а не как универсальную заявку на state of the art по сравнению с более тяжелыми appearance-based системами.
Отправная точка исследования
Во многих практических webcam-пайплайнах самая сложная часть — не само обнаружение лица, а сохранение устойчивой геометрической оценки при session drift, естественных движениях головы, короткой калибровке и ограничениях вычислений в браузере. Работа исходит из того, что многие высокоточные gaze-системы предполагают более тяжелую runtime-среду и более комфортное железо, чем может позволить себе реальное развертывание. Поэтому автор нацелен на более узкий, но очень практичный operating point: легкую landmark-only инференцию, которая при этом быстро адаптируется к каждой новой сессии.
Метод
EMC-Gaze формулирует оценку взгляда на основе landmarks как задачу адаптации на уровне сессии. Метод сочетает E(3)-эквивариантный энкодер графа landmarks, более богатую локальную геометрию глаз, бинокулярный акцент и closed-form ridge calibration head, через который проводится дифференцирование во время meta-training. Также добавляются canonicalization consistency и вспомогательный 3D-надзор на этапе обучения, чтобы устойчивость к позе усваивалась в представлении, а не перекладывалась на большую модель на стадии развертывания.
Вывод по статье
Главная ценность работы — в реализме развертывания. Она не утверждает, что превосходит все тяжелые appearance-based gaze trackers, но показывает, что небольшой ONNX-модель и короткая калибровка все равно дают заметный выигрыш относительно классических геометрических baseline. Для команд, строящих face analysis в браузере или на edge, это сильный пример того, как обменять часть leaderboard-блеска на гораздо лучшее соответствие реальной эксплуатации.