Исследовательский радарДетекция лицarXivМарт 2026

Ежемесячный радар arXiv

Радар по детекции лиц за март 2026: пайплайны landmarks, калибровка и anti-spoofing

В марте 2026 года на arXiv было сравнительно немного работ, посвященных именно детекторам лиц. Поэтому этот радар расширяет рамку до более широкого стека детекции лиц: извлечения landmarks, геометрии, удобной для калибровки, и anti-spoofing-проверок, которые стоят непосредственно перед production-пайплайнами распознавания лиц. Такой более широкий взгляд лучше отражает то, как реальные системы детекции лиц оцениваются и внедряются.

Что показывает этот месяц

Общая тема здесь — реализм развертывания: легкие геометрические пайплайны, адаптация по сессиям и liveness reasoning становятся в коммерческих face-стеках столь же важными, как и сама сырая способность к детекции.

Статья 012026-03-12cs.CV

Ориентированная на развертывание посессионная метакалибровка для отслеживания взгляда по веб-камере на основе landmarks

arXiv PDF

Авторы и организации

Chenkai Zhang

Independent Researcher, Wenzhou, Zhejiang, China

Какую задачу решает

Работа решает вопрос, как сделать практичной геометрию лица на основе landmarks при малом бюджете калибровки на сессию, движении головы и runtime-ограничениях.

Ключевой результат

Экспортируемый encoder, сфокусированный на глазах, весит всего 4.76 MB в ONNX, поддерживает откалиброванную браузерную инференцию примерно за 12.6 ms на sample и превосходит Elastic Net во всех evaluation в стиле фиксации.

Аннотация

Практическое отслеживание взгляда по веб-камере ограничивается не только ошибкой, но и нагрузкой калибровки, устойчивостью к движениям головы и дрейфу между сессиями, вычислительным следом и использованием в браузере. Поэтому мы нацеливаемся на режим работы, ориентированный на развертывание, а не на режим изображений с крупными backbone-моделями. Мы рассматриваем оценку point-of-regard на основе landmarks как адаптацию на уровне сессии: общий геометрический энкодер создает эмбеддинги, которые можно выровнять под новую сессию по небольшому калибровочному набору. Мы представляем Equivariant Meta-Calibrated Gaze (EMC-Gaze), легкий метод, использующий только landmarks и сочетающий E(3)-эквивариантный энкодер графа landmarks, локальную геометрию глаз, бинокулярный акцент, вспомогательный надзор по 3D-направлению взгляда и closed-form ridge calibrator, дифференцируемый через эпизодическое meta-training. Чтобы уменьшить утечку позы, мы используем loss согласованности каноникализации по двум видам. Развернутый предиктор использует только лицевые landmarks и подстраивает per-session ridge head по краткой калибровке. В интерактивной оценке в стиле фиксации на 33 сессиях при 100 cm EMC-Gaze достигает 5.79 +/- 1.81 deg RMSE после 9-point calibration против 6.68 +/- 2.34 deg у Elastic Net; выигрыш больше на запросах с неподвижной головой (2.92 +/- 0.75 deg против 4.45 +/- 0.30 deg). На трех holdout-разбиениях по субъектам по 10 человек в каждом EMC-Gaze сохраняет преимущество (5.66 +/- 0.19 deg против 6.49 +/- 0.33 deg). На MPIIFaceGaze при короткой калибровке на сессию модель, сфокусированная на глазах, достигает 8.82 +/- 1.21 deg при 16-shot calibration, сравнивается с Elastic Net при 1-shot и превосходит его начиная с 3-shot. Экспортированный eye-focused encoder содержит 944,423 параметра, занимает 4.76 MB в ONNX и поддерживает откалиброванное предсказание в браузере за 12.58/12.58/12.90 ms на sample (mean/median/p90) в Chromium 145 с ONNX Runtime Web. Эти результаты позиционируют EMC-Gaze как удобный для калибровки рабочий режим, а не как универсальную заявку на state of the art по сравнению с более тяжелыми appearance-based системами.

Отправная точка исследования

Во многих практических webcam-пайплайнах самая сложная часть — не само обнаружение лица, а сохранение устойчивой геометрической оценки при session drift, естественных движениях головы, короткой калибровке и ограничениях вычислений в браузере. Работа исходит из того, что многие высокоточные gaze-системы предполагают более тяжелую runtime-среду и более комфортное железо, чем может позволить себе реальное развертывание. Поэтому автор нацелен на более узкий, но очень практичный operating point: легкую landmark-only инференцию, которая при этом быстро адаптируется к каждой новой сессии.

Метод

EMC-Gaze формулирует оценку взгляда на основе landmarks как задачу адаптации на уровне сессии. Метод сочетает E(3)-эквивариантный энкодер графа landmarks, более богатую локальную геометрию глаз, бинокулярный акцент и closed-form ridge calibration head, через который проводится дифференцирование во время meta-training. Также добавляются canonicalization consistency и вспомогательный 3D-надзор на этапе обучения, чтобы устойчивость к позе усваивалась в представлении, а не перекладывалась на большую модель на стадии развертывания.

Вывод по статье

Главная ценность работы — в реализме развертывания. Она не утверждает, что превосходит все тяжелые appearance-based gaze trackers, но показывает, что небольшой ONNX-модель и короткая калибровка все равно дают заметный выигрыш относительно классических геометрических baseline. Для команд, строящих face analysis в браузере или на edge, это сильный пример того, как обменять часть leaderboard-блеска на гораздо лучшее соответствие реальной эксплуатации.

Статья 022026-03-25cs.CV

Достаточно ли одной геометрии? Оценка оценки взгляда на основе landmarks

arXiv PDF

Авторы и организации

Daniele Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Thomas Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Andrea Generosi

Department of Science and Information Technology, Universita Pegaso, Italy

Maura Mengoni

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Какую задачу решает

Эта работа оценивает реальный потолок landmark-only моделирования на современных gaze-датасетах и в cross-domain условиях, не предполагая заранее, что тяжелые CNN-пайплайны обязательны.

Ключевой результат

Landmark-only модели уступают по within-domain точности, но в cross-domain обобщении заметно ближе к baseline уровня ResNet18, что показывает: когда важна устойчивость, геометрия остается удивительно конкурентоспособной.

Аннотация

Оценка направления взгляда на основе внешнего вида часто опирается на глубокие сверточные нейронные сети (CNN). Эти модели точны, но вычислительно затратны и работают как черные ящики, обеспечивая низкую интерпретируемость. Геометрические методы на основе лицевых landmarks являются легкой альтернативой, однако их пределы качества и способность к обобщению на современных бенчмарках остаются недостаточно изученными. В этом исследовании мы проводим всестороннюю оценку оценки взгляда на основе landmarks. Мы вводим стандартизированный pipeline для извлечения и нормализации landmarks из трех крупных датасетов (Gaze360, ETH-XGaze и GazeGene) и обучаем легкие регрессионные модели, а именно деревья Extreme Gradient Boosted и две нейросетевые архитектуры: целостный Multi-Layer Perceptron (MLP) и сиамский MLP, разработанный для захвата бинокулярной геометрии. Мы обнаруживаем, что модели на основе landmarks показывают более низкое качество во внутридоменной оценке, вероятно, из-за шума, вносимого в датасеты детектором landmarks. Тем не менее в междоменной оценке предложенные архитектуры MLP демонстрируют способности к обобщению, сопоставимые с базовыми моделями ResNet18. Эти результаты показывают, что разреженные геометрические признаки содержат достаточную информацию для устойчивой оценки взгляда, открывая путь к эффективным, интерпретируемым и дружественным к приватности edge-приложениям. Исходный код и сгенерированные датасеты на основе landmarks доступны по адресу https://github.com/daniele-agostinelli/LandmarkGaze.git.

Отправная точка исследования

Appearance-based модели доминируют в современной оценке взгляда, но остаются дорогими, непрозрачными и более сложными для развертывания в средах с повышенными требованиями к приватности. Landmark-only моделирование обещает гораздо более легкую альтернативу, однако в области по-прежнему нет строгого сравнения, которое показало бы, является ли разреженная геометрия просто дешевой аппроксимацией или действительно конкурентоспособным представлением. Авторов мотивирует этот пробел и более широкий вопрос о том, сколько информации одна лишь геометрия лица способна переносить между датасетами.

Метод

Сначала в статье строятся нормализованные landmark-based версии трех крупных датасетов — Gaze360, ETH-XGaze и GazeGene, — после чего на этих признаках обучаются три легких регрессора: XGBoost, целостный MLP и siamese MLP, ориентированный на бинокулярную геометрию. Оценка включает как within-domain, так и cross-domain тестирование, поэтому исследование может отделить простое подгоняние под benchmark от настоящей обобщающей способности. Авторы также анализируют важность признаков и показывают, что шум landmark detector является одним из ключевых ограничений потолка geometry-only систем.

Вывод по статье

Главный вывод в том, что одной геометрии недостаточно, чтобы выиграть каждый benchmark, но при важности cross-domain устойчивости она значительно сильнее, чем принято думать. Лучшие landmark-based MLP уступают image-моделям по within-domain точности, однако становятся неожиданно конкурентоспособными при domain shift. Для edge AI и privacy-first продуктов это делает разреженную геометрию стратегически интересным вариантом, а не просто исследовательской диковинкой.

Статья 032026-03-01cs.CV

От интуиции к расследованию: tool-augmented reasoning MLLM framework для обобщаемого Face Anti-Spoofing

arXiv PDF

Авторы и организации

Haoyuan Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Baidu Inc.

Keyao Wang

Baidu Inc.

Guosheng Zhang

Baidu Inc.

Haixiao Yue

Baidu Inc.

Zhiwen Tan

Baidu Inc.

Siran Peng

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Tianshuo Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiao Tan

Baidu Inc.

Kunbin Chen

Baidu Inc.

Wei He

Baidu Inc.

Jingdong Wang

Baidu Inc.

Ajian Liu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiangyu Zhu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Zhen Lei

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

CAIR, HKISI, CAS

Macao University of Science and Technology

Какую задачу решает

Работа нацелена на слабую обобщающую способность систем Face Anti-Spoofing и изучает, могут ли multimodal-пайплайны с усиленным reasoning более устойчиво анализировать признаки атаки.

Ключевой результат

В abstract ключевой вклад сформулирован как усиление обобщения в Face Anti-Spoofing за счет явного reasoning и интеграции доказательств — именно то, что нужно практическим liveness-системам при появлении новых форматов атак.

Аннотация

Распознавание лиц остается уязвимым к presentation attacks, что требует надежных решений для Face Anti-Spoofing (FAS). Недавние методы FAS на основе MLLM переформулируют задачу бинарной классификации как генерацию кратких текстовых описаний, чтобы улучшить междоменное обобщение. Однако их обобщающая способность все еще ограничена, поскольку такие описания в основном захватывают интуитивные семантические признаки, например контуры маски, но плохо воспринимают тонкие визуальные паттерны. Чтобы преодолеть это ограничение, мы интегрируем внешние визуальные инструменты в MLLM, побуждая их к более глубокому исследованию тонких признаков spoofing. В частности, мы предлагаем framework Tool-Augmented Reasoning FAS (TAR-FAS), который переформулирует задачу FAS как парадигму Chain-of-Thought with Visual Tools (CoT-VT), позволяя MLLM начинать с интуитивных наблюдений и адаптивно вызывать внешние визуальные инструменты для детального анализа. Для этого мы разрабатываем pipeline аннотирования данных с использованием инструментов и создаем датасет ToolFAS-16K, содержащий многошаговые траектории рассуждений с использованием инструментов. Кроме того, мы вводим tool-aware pipeline обучения FAS, в котором Diverse-Tool Group Relative Policy Optimization (DT-GRPO) позволяет модели автономно обучаться эффективному использованию инструментов. Обширные эксперименты в сложном междоменном протоколе one-to-eleven показывают, что TAR-FAS достигает SOTA-результатов, одновременно обеспечивая детализированное визуальное исследование для надежного обнаружения spoofing.

Отправная точка исследования

Системы Face Anti-Spoofing часто рушатся при смене типа атаки, потому что незаметно переобучаются на небольшой набор повторяющихся артефактов из обучающих датасетов. Авторов мотивирует разрыв между benchmark-результатами и реальной устойчивостью, где новые print-атаки, replay-атаки или generative spoofs могут выглядеть совсем не так, как все ранее встречавшееся. Поэтому проблему они формулируют как переход от поверхностного pattern matching к более явному поиску доказательств и рассуждению.

Метод

В статье предлагается tool-augmented reasoning framework для обобщаемого Face Anti-Spoofing, где модель не останавливается на первом визуальном впечатлении, а постепенно собирает подтверждающие признаки. Вместо того чтобы полагаться на один end-to-end classifier, который должен впитать все сигналы атаки, метод делает акцент на промежуточных шагах расследования и явной интеграции доказательств. Такой дизайн должен уменьшить зависимость liveness-решения от хрупких артефактов датасета и повысить устойчивость к незнакомым форматам spoof.

Вывод по статье

Хотя статья формально посвящена anti-spoofing, ее более широкий посыл важен для всего стека детекции и верификации лиц: устойчивость возникает благодаря лучшему сбору доказательств, а не только за счет более крупных backbone. Для практиков эта идея особенно привлекательна, потому что liveness часто становится первой реальной точкой отказа в KYC- и access-control-системах. Detector, который рассуждает о spoof-доказательствах, а не запоминает артефакты одного датасета, будет намного полезнее в production.