Meta-calibración por sesión orientada al despliegue para seguimiento de mirada con webcam basado en landmarks
Autores e instituciones
Chenkai Zhang
Independent Researcher, Wenzhou, Zhejiang, China
Qué problema resuelve
El trabajo aborda cómo hacer práctica la geometría facial basada en landmarks bajo presupuestos pequeños de calibración por sesión, movimiento de cabeza y restricciones de tiempo de ejecución.
Resultado clave
El codificador exportado enfocado en los ojos ocupa solo 4.76 MB en ONNX y permite inferencia calibrada en navegador en torno a 12.6 ms por muestra, superando a Elastic Net en sus evaluaciones de tipo fijación.
Resumen
El seguimiento práctico de la mirada con webcam está limitado no solo por el error, sino también por la carga de calibración, la robustez ante movimiento de cabeza y session drift, la huella de ejecución y el uso en navegador. Por ello, apuntamos a un punto de operación orientado al despliegue en lugar del régimen de grandes backbones basados en imagen. Planteamos la estimación del point-of-regard basada en landmarks como una adaptación por sesión: un codificador geométrico compartido produce embeddings que pueden alinearse a una nueva sesión a partir de un pequeño conjunto de calibración. Presentamos Equivariant Meta-Calibrated Gaze (EMC-Gaze), un método ligero basado solo en landmarks que combina un codificador de grafos de landmarks E(3)-equivariante, geometría ocular local, énfasis binocular, supervisión auxiliar de dirección de mirada 3D y un calibrador ridge de forma cerrada diferenciado mediante metaentrenamiento episódico. Para reducir el pose leakage, utilizamos una pérdida de consistencia de canonicalización de dos vistas. El predictor desplegado usa únicamente landmarks faciales y ajusta una cabeza ridge por sesión a partir de una breve calibración. En una evaluación interactiva de tipo fijación sobre 33 sesiones a 100 cm, EMC-Gaze logra 5.79 +/- 1.81 deg RMSE tras una calibración de 9 puntos frente a 6.68 +/- 2.34 deg de Elastic Net; la ganancia es mayor en consultas con la cabeza quieta (2.92 +/- 0.75 deg vs. 4.45 +/- 0.30 deg). En tres particiones holdout de sujetos de 10 personas cada una, EMC-Gaze mantiene la ventaja (5.66 +/- 0.19 deg vs. 6.49 +/- 0.33 deg). En MPIIFaceGaze con calibración corta por sesión, el modelo enfocado en los ojos alcanza 8.82 +/- 1.21 deg con calibración de 16-shot, empata con Elastic Net en 1-shot y lo supera a partir de 3-shot. El codificador exportado enfocado en los ojos tiene 944,423 parámetros, ocupa 4.76 MB en ONNX y permite predicción calibrada en navegador en 12.58/12.58/12.90 ms por muestra (media/mediana/p90) en Chromium 145 con ONNX Runtime Web. Estos resultados sitúan a EMC-Gaze como un punto de operación favorable para la calibración, más que como una afirmación universal de state of the art frente a sistemas basados en apariencia más pesados.
Punto de partida
En muchas canalizaciones prácticas con webcam, la parte más difícil no es detectar un rostro, sino mantener estable la estimación geométrica bajo session drift, movimiento casual de cabeza, calibración corta y límites de cómputo en navegador. El artículo parte de la observación de que muchos sistemas de gaze de alta precisión asumen un entorno de ejecución más pesado y un hardware más indulgente de lo que permiten los despliegues reales. Por eso apunta a un punto de operación más acotado pero muy práctico: inferencia landmark-only ligera que aun así se adapta rápido a cada nueva sesión.
Método
EMC-Gaze formula la estimación de mirada basada en landmarks como un problema de adaptación por sesión. Combina un codificador de grafos de landmarks E(3)-equivariante, geometría ocular local más rica, énfasis binocular y una cabeza de calibración ridge en forma cerrada diferenciada durante el metaentrenamiento. El método también añade canonicalization consistency y supervisión 3D auxiliar en entrenamiento para que la robustez a la pose se aprenda en la representación en lugar de dejarse a un gran modelo en despliegue.
Conclusión del artículo
El principal valor del trabajo está en su realismo de despliegue. No afirma superar a todos los gaze trackers appearance-based de gran tamaño, pero sí demuestra que un modelo ONNX pequeño con calibración corta aún puede aportar mejoras significativas frente a baselines geométricas clásicas. Para equipos que construyen análisis facial en navegador o en el edge, es un ejemplo sólido de cómo sacrificar algo de brillo de leaderboard a cambio de mucho mejor encaje operativo.