리서치 레이더얼굴 검출arXiv2026년 3월

월간 arXiv 레이더

2026년 3월 얼굴 검출 레이더: 랜드마크 파이프라인, 보정, 안티 스푸핑

2026년 3월 arXiv에서는 순수한 얼굴 검출기 논문이 비교적 적었기 때문에, 이번 레이더는 범위를 더 넓은 얼굴 검출 스택으로 확장한다. 여기에는 랜드마크 추출, 보정 친화적 기하 표현, 그리고 실제 얼굴 인식 파이프라인 바로 앞단에 놓이는 안티 스푸핑 점검이 포함된다. 이런 더 넓은 틀이 실제 얼굴 검출 시스템이 평가되고 배포되는 방식을 더 잘 반영한다.

이번 달이 보여주는 신호

공통된 흐름은 배포 현실성이다. 경량 기하 파이프라인, 세션 적응, 그리고 liveness reasoning은 상용 얼굴 스택에서 순수 검출 성능만큼 중요해지고 있다.

논문 012026-03-12cs.CV

랜드마크 기반 웹캠 시선 추적을 위한 배포 지향 세션별 메타 보정

arXiv PDF

저자 및 소속

Chenkai Zhang

Independent Researcher, Wenzhou, Zhejiang, China

해결하는 문제

이 논문은 세션별 보정 예산이 작고 머리 움직임과 런타임 제약이 있는 상황에서, 랜드마크 기반 얼굴 기하를 어떻게 실제 배포 가능한 수준으로 만들 수 있는지를 다룬다.

핵심 결과

내보낸 눈 중심 인코더는 ONNX 기준 4.76 MB에 불과하고 샘플당 약 12.6 ms의 보정된 브라우저 추론을 지원하며, fixation 스타일 평가 전반에서 Elastic Net을 앞섰다.

초록

실용적인 webcam 시선 추적은 오차뿐 아니라 보정 부담, 머리 움직임과 세션 드리프트에 대한 강건성, 런타임 풋프린트, 그리고 브라우저 사용성에도 제약을 받는다. 따라서 본 연구는 대형 백본을 사용하는 이미지 중심 체제가 아니라 배포 지향적 operating point를 목표로 한다. 우리는 랜드마크 기반 point-of-regard 추정을 세션 단위 적응 문제로 정식화하며, 공유 기하 인코더가 임베딩을 생성하고 이를 소량의 보정 집합으로 새로운 세션에 정렬한다. 이를 위해 Equivariant Meta-Calibrated Gaze(EMC-Gaze)를 제안한다. 이 방법은 경량 랜드마크 전용 방식으로, E(3)-equivariant 랜드마크 그래프 인코더, 국소 눈 기하, 양안 강조, 보조 3D 시선 방향 감독, 그리고 에피소드 메타 학습을 통해 미분 가능한 폐형식 ridge calibrator를 결합한다. 자세 정보 누출을 줄이기 위해 두 시점 canonicalization consistency loss를 사용한다. 실제 배포되는 예측기는 얼굴 랜드마크만 사용하며, 짧은 보정으로 세션별 ridge head를 적합한다. 100 cm 거리에서 33개 세션에 걸친 fixation 스타일 상호작용 평가에서 EMC-Gaze는 9-point calibration 이후 5.79 +/- 1.81 deg RMSE를 달성하여 Elastic Net의 6.68 +/- 2.34 deg보다 우수했다. 이 향상은 정지된 머리 질의에서 더 크게 나타나 2.92 +/- 0.75 deg 대 4.45 +/- 0.30 deg를 기록했다. 각 10명으로 구성된 3개의 피험자 홀드아웃에서도 EMC-Gaze는 5.66 +/- 0.19 deg 대 6.49 +/- 0.33 deg로 우위를 유지했다. MPIIFaceGaze에서 짧은 세션별 보정을 적용한 경우, 눈 중심 모델은 16-shot calibration에서 8.82 +/- 1.21 deg를 달성했고, 1-shot에서는 Elastic Net과 동률이었으며, 3-shot 이후부터는 이를 능가했다. 내보낸 눈 중심 인코더는 944,423개 파라미터를 가지며 ONNX 기준 4.76 MB이고, Chromium 145의 ONNX Runtime Web에서 보정된 브라우저 예측을 sample당 12.58/12.58/12.90 ms(mean/median/p90)로 지원한다. 이러한 결과는 EMC-Gaze가 더 무거운 appearance-based 시스템을 상대로 보편적인 state-of-the-art를 주장하기보다, 보정 친화적인 실사용 operating point임을 보여준다.

연구 출발점

많은 실제 웹캠 파이프라인에서 더 어려운 문제는 얼굴을 검출하는 것 자체가 아니라, 세션 드리프트, 자연스러운 머리 움직임, 짧은 보정 절차, 브라우저 측 연산 제약 아래에서도 기하 추정을 안정적으로 유지하는 것이다. 이 논문은 많은 고정확도 gaze 시스템이 실제 배포 환경이 감당하기 어려운 무거운 런타임과 여유로운 하드웨어 조건을 가정한다는 점에서 출발한다. 그래서 저자는 더 좁지만 매우 실용적인 operating point, 즉 경량 landmark-only 추론이면서도 새로운 세션마다 빠르게 적응하는 방식을 겨냥한다.

방법

EMC-Gaze는 랜드마크 기반 시선 추정을 세션 단위 적응 문제로 정식화한다. 이 방법은 E(3)-equivariant 랜드마크 그래프 인코더, 더 풍부한 국소 눈 기하, 양안 강조, 그리고 메타 학습 동안 미분 가능한 폐형식 ridge calibration head를 결합한다. 또한 canonicalization consistency와 학습 시 보조 3D supervision을 추가해, 자세 강건성을 배포 시점의 대형 모델에 미루지 않고 표현 자체 안에서 학습하게 만든다.

논문 요약

이 논문의 가장 큰 가치는 배포 현실성에 있다. 모든 대형 appearance-based gaze tracker를 이긴다고 주장하지는 않지만, 작은 ONNX 모델과 짧은 보정만으로도 고전적 기하 베이스라인 대비 의미 있는 개선을 낼 수 있음을 보여준다. 브라우저나 엣지 측 얼굴 분석을 만드는 팀에게 이것은 약간의 리더보드 화려함을 내려놓는 대신 훨씬 더 나은 운영 적합성을 얻는 좋은 사례다.

논문 022026-03-25cs.CV

기하만으로 충분한가? 랜드마크 기반 시선 추정 평가

arXiv PDF

저자 및 소속

Daniele Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Thomas Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Andrea Generosi

Department of Science and Information Technology, Universita Pegaso, Italy

Maura Mengoni

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

해결하는 문제

이 논문은 무거운 CNN 파이프라인이 필수라고 가정하지 않고, 현대 gaze 데이터셋과 cross-domain 조건에서 landmark-only 모델링의 실제 상한을 평가한다.

핵심 결과

landmark-only 모델은 within-domain 정확도에서는 뒤처지지만, cross-domain 일반화에서는 ResNet18 계열 베이스라인에 훨씬 더 가깝게 접근해, 견고성이 중요할 때 기하 정보가 놀랄 만큼 경쟁력 있음을 보여준다.

초록

외형 기반 시선 추정은 빈번하게 심층 Convolutional Neural Networks(CNNs)에 의존한다. 이러한 모델은 정확하지만 계산 비용이 크고 블랙박스로 작동하여 해석 가능성이 낮다. 얼굴 랜드마크 기반 기하학적 방법은 경량 대안이지만, 그 성능 한계와 일반화 능력은 현대적 벤치마크에서 아직 충분히 탐구되지 않았다. 본 연구에서는 랜드마크 기반 시선 추정에 대한 포괄적 평가를 수행한다. Gaze360, ETH-XGaze, GazeGene의 세 대규모 데이터셋에서 랜드마크를 추출하고 정규화하는 표준화 파이프라인을 도입하고, 경량 회귀 모델로 Extreme Gradient Boosted trees와 두 가지 신경망 구조, 즉 전체적 Multi-Layer Perceptron(MLP)과 양안 기하를 포착하도록 설계된 siamese MLP를 학습한다. 실험 결과, 랜드마크 기반 모델은 동일 도메인 평가에서는 더 낮은 성능을 보였는데, 이는 랜드마크 검출기가 데이터셋에 주입한 노이즈 때문일 가능성이 크다. 그럼에도 불구하고 교차 도메인 평가에서는 제안된 MLP 구조가 ResNet18 기준선과 견줄 만한 일반화 능력을 보였다. 이러한 결과는 희소한 기하 특징만으로도 강건한 시선 추정에 충분한 정보를 담을 수 있음을 시사하며, 효율적이고 해석 가능하며 프라이버시 친화적인 엣지 응용의 가능성을 연다. 소스 코드와 생성된 랜드마크 기반 데이터셋은 https://github.com/daniele-agostinelli/LandmarkGaze.git 에서 제공된다.

연구 출발점

appearance-based 모델은 현대 시선 추정을 지배하지만 여전히 비용이 높고 불투명하며, 프라이버시에 민감한 환경에서는 배포가 더 어렵다. landmark-only 모델링은 훨씬 가벼운 대안을 약속하지만, 희소 기하가 단지 저렴한 근사치인지 아니면 진지하게 경쟁력 있는 표현인지 검증하는 엄밀한 비교는 여전히 부족하다. 저자들은 이 공백과 얼굴 기하만으로 데이터셋 전반에서 얼마나 많은 정보를 담아낼 수 있는지라는 더 큰 질문에서 출발한다.

방법

이 논문은 먼저 Gaze360, ETH-XGaze, GazeGene 세 주요 데이터셋의 정규화된 landmark-based 버전을 구축한 뒤, 그 특징 위에 XGBoost, 홀리스틱 MLP, 그리고 양안 기하에 맞춘 siamese MLP라는 세 가지 경량 회귀기를 학습한다. 평가는 within-domain과 cross-domain 테스트를 모두 포함해 단순한 벤치마크 적합과 진짜 일반화를 구분할 수 있게 한다. 저자들은 또한 특징 중요도를 분석하고, landmark detector의 노이즈가 geometry-only 시스템 상한을 제한하는 핵심 병목 중 하나라고 지적한다.

논문 요약

핵심 결론은 기하 정보만으로 모든 벤치마크를 이길 수는 없지만, cross-domain 강건성이 중요할 때는 많은 사람이 생각하는 것보다 훨씬 강력하다는 점이다. 최고의 landmark-based MLP는 within-domain 정확도에서는 이미지 모델에 뒤지지만, 도메인이 바뀌면 놀랄 만큼 경쟁력이 높아진다. 엣지 AI와 프라이버시 우선 제품에게 이는 희소 기하가 단순한 연구 호기심이 아니라 전략적으로 흥미로운 선택지임을 뜻한다.

논문 032026-03-01cs.CV

직관에서 조사로: 일반화 가능한 얼굴 안티 스푸핑을 위한 도구 증강 추론 MLLM 프레임워크

arXiv PDF

저자 및 소속

Haoyuan Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Baidu Inc.

Keyao Wang

Baidu Inc.

Guosheng Zhang

Baidu Inc.

Haixiao Yue

Baidu Inc.

Zhiwen Tan

Baidu Inc.

Siran Peng

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Tianshuo Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiao Tan

Baidu Inc.

Kunbin Chen

Baidu Inc.

Wei He

Baidu Inc.

Jingdong Wang

Baidu Inc.

Ajian Liu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiangyu Zhu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Zhen Lei

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

CAIR, HKISI, CAS

Macao University of Science and Technology

해결하는 문제

이 논문은 기존 얼굴 안티 스푸핑 시스템의 낮은 일반화 성능을 겨냥하며, 추론이 강화된 멀티모달 파이프라인이 공격 증거를 더 견고하게 점검할 수 있는지 연구한다.

핵심 결과

초록은 명시적 추론과 증거 통합을 통해 얼굴 안티 스푸핑의 일반화를 강화하는 것을 핵심 기여로 제시하며, 이는 새로운 공격 형식에 대응해야 하는 실제 liveness 시스템에 정확히 필요한 능력이다.

초록

얼굴 인식은 여전히 presentation attack에 취약하므로 강건한 Face Anti-Spoofing(FAS) 솔루션이 필요하다. 최근의 MLLM 기반 FAS 방법은 이진 분류 과제를 짧은 텍스트 설명 생성으로 재정식화하여 교차 도메인 일반화를 향상시키고자 한다. 그러나 이러한 설명은 주로 직관적인 의미 단서, 예를 들어 마스크 윤곽에 집중하고 미세한 시각 패턴은 잘 포착하지 못하므로, 일반화 성능은 여전히 제한적이다. 이러한 한계를 해결하기 위해 본 연구는 MLLM에 외부 시각 도구를 통합하여 미묘한 spoof 단서를 더 깊이 조사하도록 유도한다. 구체적으로 Tool-Augmented Reasoning FAS(TAR-FAS) 프레임워크를 제안하며, FAS 과제를 Chain-of-Thought with Visual Tools(CoT-VT) 패러다임으로 재구성한다. 이를 통해 MLLM은 직관적 관찰에서 출발해, 세밀한 조사를 위해 외부 시각 도구를 적응적으로 호출할 수 있다. 이를 위해 도구 증강 데이터 주석 파이프라인을 설계하고, 다중 턴 도구 사용 추론 궤적을 포함하는 ToolFAS-16K 데이터셋을 구축했다. 더 나아가 도구 인지형 FAS 학습 파이프라인을 도입하여, Diverse-Tool Group Relative Policy Optimization(DT-GRPO)을 통해 모델이 효율적인 도구 사용을 자율적으로 학습하도록 한다. 도전적인 one-to-eleven cross-domain protocol에서의 광범위한 실험은 TAR-FAS가 신뢰할 수 있는 spoof 검출을 위한 fine-grained 시각 조사를 제공하면서 SOTA 성능을 달성함을 보여준다.

연구 출발점

얼굴 안티 스푸핑 시스템은 공격 형태가 바뀌면 자주 무너진다. 학습 데이터셋에 반복적으로 나타나는 소수의 아티팩트에 조용히 과적합하기 때문이다. 저자들은 벤치마크 성능과 실제 환경 강건성 사이의 간극에 주목한다. 새로운 인쇄 공격, 리플레이 공격, 생성형 spoof는 이전에 본 것과 전혀 다르게 보일 수 있다. 그래서 이 문제를 단순한 패턴 매칭에서 더 명시적인 증거 탐색과 추론 과정으로 옮겨야 한다고 본다.

방법

이 논문은 일반화 가능한 얼굴 안티 스푸핑을 위한 tool-augmented reasoning 프레임워크를 제안한다. 모델은 첫 시각적 인상에서 멈추지 않고, 점진적으로 뒷받침 증거를 수집한다. 모든 공격 단서를 하나의 end-to-end classifier에 맡기는 대신, 이 방법은 중간 조사 단계와 명시적 증거 통합을 강조한다. 그 결과 liveness 판단이 취약한 데이터셋 아티팩트에 덜 의존하고, 낯선 spoof 형식에도 더 강인해지도록 설계되었다.

논문 요약

이 논문은 안티 스푸핑을 중심으로 쓰였지만, 더 넓은 메시지는 전체 얼굴 검출 및 검증 스택에 적용된다. 진짜 강건성은 더 큰 backbone이 아니라 더 나은 증거 수집에서 나온다는 점이다. 실무자에게 이 아이디어가 매력적인 이유는 KYC와 출입 통제 시스템에서 liveness가 종종 가장 먼저 실패하는 지점이기 때문이다. 특정 데이터셋 아티팩트를 외우는 대신 spoof 증거를 추론하는 detector가 실제 운영에서는 훨씬 더 유용할 수 있다.