저자 및 소속
Chenkai Zhang
Independent Researcher, Wenzhou, Zhejiang, China
해결하는 문제
이 논문은 세션별 보정 예산이 작고 머리 움직임과 런타임 제약이 있는 상황에서, 랜드마크 기반 얼굴 기하를 어떻게 실제 배포 가능한 수준으로 만들 수 있는지를 다룬다.
핵심 결과
내보낸 눈 중심 인코더는 ONNX 기준 4.76 MB에 불과하고 샘플당 약 12.6 ms의 보정된 브라우저 추론을 지원하며, fixation 스타일 평가 전반에서 Elastic Net을 앞섰다.
초록
실용적인 webcam 시선 추적은 오차뿐 아니라 보정 부담, 머리 움직임과 세션 드리프트에 대한 강건성, 런타임 풋프린트, 그리고 브라우저 사용성에도 제약을 받는다. 따라서 본 연구는 대형 백본을 사용하는 이미지 중심 체제가 아니라 배포 지향적 operating point를 목표로 한다. 우리는 랜드마크 기반 point-of-regard 추정을 세션 단위 적응 문제로 정식화하며, 공유 기하 인코더가 임베딩을 생성하고 이를 소량의 보정 집합으로 새로운 세션에 정렬한다. 이를 위해 Equivariant Meta-Calibrated Gaze(EMC-Gaze)를 제안한다. 이 방법은 경량 랜드마크 전용 방식으로, E(3)-equivariant 랜드마크 그래프 인코더, 국소 눈 기하, 양안 강조, 보조 3D 시선 방향 감독, 그리고 에피소드 메타 학습을 통해 미분 가능한 폐형식 ridge calibrator를 결합한다. 자세 정보 누출을 줄이기 위해 두 시점 canonicalization consistency loss를 사용한다. 실제 배포되는 예측기는 얼굴 랜드마크만 사용하며, 짧은 보정으로 세션별 ridge head를 적합한다. 100 cm 거리에서 33개 세션에 걸친 fixation 스타일 상호작용 평가에서 EMC-Gaze는 9-point calibration 이후 5.79 +/- 1.81 deg RMSE를 달성하여 Elastic Net의 6.68 +/- 2.34 deg보다 우수했다. 이 향상은 정지된 머리 질의에서 더 크게 나타나 2.92 +/- 0.75 deg 대 4.45 +/- 0.30 deg를 기록했다. 각 10명으로 구성된 3개의 피험자 홀드아웃에서도 EMC-Gaze는 5.66 +/- 0.19 deg 대 6.49 +/- 0.33 deg로 우위를 유지했다. MPIIFaceGaze에서 짧은 세션별 보정을 적용한 경우, 눈 중심 모델은 16-shot calibration에서 8.82 +/- 1.21 deg를 달성했고, 1-shot에서는 Elastic Net과 동률이었으며, 3-shot 이후부터는 이를 능가했다. 내보낸 눈 중심 인코더는 944,423개 파라미터를 가지며 ONNX 기준 4.76 MB이고, Chromium 145의 ONNX Runtime Web에서 보정된 브라우저 예측을 sample당 12.58/12.58/12.90 ms(mean/median/p90)로 지원한다. 이러한 결과는 EMC-Gaze가 더 무거운 appearance-based 시스템을 상대로 보편적인 state-of-the-art를 주장하기보다, 보정 친화적인 실사용 operating point임을 보여준다.
연구 출발점
많은 실제 웹캠 파이프라인에서 더 어려운 문제는 얼굴을 검출하는 것 자체가 아니라, 세션 드리프트, 자연스러운 머리 움직임, 짧은 보정 절차, 브라우저 측 연산 제약 아래에서도 기하 추정을 안정적으로 유지하는 것이다. 이 논문은 많은 고정확도 gaze 시스템이 실제 배포 환경이 감당하기 어려운 무거운 런타임과 여유로운 하드웨어 조건을 가정한다는 점에서 출발한다. 그래서 저자는 더 좁지만 매우 실용적인 operating point, 즉 경량 landmark-only 추론이면서도 새로운 세션마다 빠르게 적응하는 방식을 겨냥한다.
방법
EMC-Gaze는 랜드마크 기반 시선 추정을 세션 단위 적응 문제로 정식화한다. 이 방법은 E(3)-equivariant 랜드마크 그래프 인코더, 더 풍부한 국소 눈 기하, 양안 강조, 그리고 메타 학습 동안 미분 가능한 폐형식 ridge calibration head를 결합한다. 또한 canonicalization consistency와 학습 시 보조 3D supervision을 추가해, 자세 강건성을 배포 시점의 대형 모델에 미루지 않고 표현 자체 안에서 학습하게 만든다.
논문 요약
이 논문의 가장 큰 가치는 배포 현실성에 있다. 모든 대형 appearance-based gaze tracker를 이긴다고 주장하지는 않지만, 작은 ONNX 모델과 짧은 보정만으로도 고전적 기하 베이스라인 대비 의미 있는 개선을 낼 수 있음을 보여준다. 브라우저나 엣지 측 얼굴 분석을 만드는 팀에게 이것은 약간의 리더보드 화려함을 내려놓는 대신 훨씬 더 나은 운영 적합성을 얻는 좋은 사례다.