Meta-calibração por sessão orientada à implantação para rastreamento do olhar por webcam baseado em landmarks
Autores e instituições
Chenkai Zhang
Independent Researcher, Wenzhou, Zhejiang, China
Que problema resolve
O trabalho trata de como tornar prática a geometria facial baseada em landmarks sob pequenos orçamentos de calibração por sessão, movimento de cabeça e restrições de runtime.
Resultado-chave
O codificador exportado focado nos olhos tem apenas 4.76 MB em ONNX e suporta inferência calibrada no navegador em cerca de 12.6 ms por amostra, superando o Elastic Net nas avaliações em estilo de fixação.
Resumo
O rastreamento prático do olhar por webcam é limitado não apenas pelo erro, mas também pelo custo de calibração, pela robustez ao movimento de cabeça e à deriva entre sessões, pela pegada de execução e pelo uso no navegador. Por isso, visamos um ponto de operação orientado à implantação, e não o regime de imagens com backbones de grande porte. Formulamos a estimação do ponto de olhar baseada em landmarks como adaptação por sessão: um codificador geométrico compartilhado produz embeddings que podem ser alinhados a uma nova sessão a partir de um pequeno conjunto de calibração. Apresentamos o Equivariant Meta-Calibrated Gaze (EMC-Gaze), um método leve baseado apenas em landmarks que combina um codificador de grafo de landmarks E(3)-equivariante, geometria ocular local, ênfase binocular, supervisão auxiliar da direção do olhar em 3D e um calibrador ridge em forma fechada diferenciado por meio de meta-training episódico. Para reduzir vazamento de pose, usamos uma perda de consistência de canonização em duas vistas. O preditor implantado usa apenas landmarks faciais e ajusta uma cabeça ridge por sessão a partir de uma calibração breve. Em uma avaliação interativa do tipo fixação em 33 sessões a 100 cm, o EMC-Gaze atinge 5.79 +/- 1.81 deg de RMSE após calibração de 9 pontos, versus 6.68 +/- 2.34 deg do Elastic Net; o ganho é maior em consultas com cabeça imóvel (2.92 +/- 0.75 deg vs. 4.45 +/- 0.30 deg). Em três holdouts por sujeito de 10 sujeitos cada, o EMC-Gaze mantém vantagem (5.66 +/- 0.19 deg vs. 6.49 +/- 0.33 deg). No MPIIFaceGaze com calibração curta por sessão, o modelo focado nos olhos alcança 8.82 +/- 1.21 deg com calibração de 16-shot, empata com o Elastic Net em 1-shot e o supera a partir de 3-shot. O codificador exportado focado nos olhos tem 944,423 parâmetros, 4.76 MB em ONNX e oferece predição calibrada no navegador em 12.58/12.58/12.90 ms por amostra (mean/median/p90) no Chromium 145 com ONNX Runtime Web. Esses resultados posicionam o EMC-Gaze como um ponto de operação favorável à calibração, e não como uma alegação universal de estado da arte frente a sistemas mais pesados baseados em aparência.
Ponto de partida da pesquisa
Em muitas pipelines práticas com webcam, a parte mais difícil não é detectar um rosto, mas manter a estimativa geométrica estável sob session drift, movimento casual de cabeça, calibração curta e limites de computação no navegador. O artigo parte da observação de que muitos sistemas de gaze de alta precisão assumem um ambiente de execução mais pesado e um hardware mais permissivo do que as implantações reais conseguem sustentar. Por isso, o autor mira um ponto de operação mais estreito, porém altamente prático: inferência landmark-only leve que ainda se adapta rapidamente a cada nova sessão.
Método
O EMC-Gaze formula a estimativa de gaze baseada em landmarks como um problema de adaptação por sessão. Ele combina um codificador de grafo de landmarks E(3)-equivariante, geometria ocular local mais rica, ênfase binocular e uma cabeça de calibração ridge em forma fechada diferenciada durante o meta-training. O método também adiciona canonicalization consistency e supervisão 3D auxiliar no treinamento para que a robustez à pose seja aprendida na representação, em vez de ficar para um grande modelo em produção.
Síntese do artigo
O principal valor do artigo está no realismo de implantação. Ele não afirma superar todo gaze tracker appearance-based pesado, mas mostra que um modelo ONNX pequeno com calibração curta ainda pode entregar melhorias relevantes sobre baselines geométricas clássicas. Para equipes que constroem análise facial no navegador ou no edge, este é um forte exemplo de como trocar um pouco de glamour de leaderboard por muito mais aderência operacional.