← Назад в Блог

Исследовательский радарРаспознавание лицarXivИюнь 2026

Ежемесячный радар arXiv

Распознавание лиц в июне 2026: low-resolution MoE, эффективные ViT и документы на 1024 байта

Работы июня 2026 ориентированы на deployment: плохой capture, жесткие compute budgets и экстремальные storage limits.

Что показывает этот месяц

Вместе работы делают recognition stack устойчивее: capacity для degraded faces, latency-quality trade-offs в ViT и document images под byte budgets.

Статья 012026-06-30cs.CV

FaceMoE: смесь экспертов для распознавания лиц низкого разрешения

Авторы и организации

Kartik Narayan

Johns Hopkins University

Vishal M. Patel

Johns Hopkins University

Какую задачу решает

Работа решает слабость единого энкодера: после LR fine-tuning он может плохо описывать деградированные зоны и терять HR-знание.

Ключевой результат

На 11 HR, mixed-quality и LR бенчмарках авторы сообщают явное превосходство над SOTA при разреженной активации экспертов.

Аннотация

FaceMoE решает задачу распознавания лиц низкого разрешения, где размытие, окклюзии, низкий контраст и разрыв HR/LR ослабляют признаки личности. Transformer дополняется FFN-экспертами и top-k маршрутизатором.

Отправная точка исследования

В видеонаблюдении, доступе и пограничных сценариях часто сравнивают деградированные probe-изображения с чистой регистрацией; важен не только дефицит деталей, но и domain gap.

Метод

FaceMoE добавляет специализированные FFN-эксперты в transformer и применяет top-k маршрутизацию токенов. Loss распознавания, router z-loss и load balancing стабилизируют специализацию.

Вывод по статье

FaceMoE полезен там, где качество захвата нельзя контролировать. Роутинг добавляет емкость для деградированных лиц без отдельной LR-системы и без полной стоимости большого dense-моделя.

Статья 022026-06-10cs.CV

ViT-FREE: эффективное распознавание лиц через ранний выход и синтетическую адаптацию

Авторы и организации

Tahar Chettaoui

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Guray Ozgur

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Eduarda Caldeira

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Naser Damer

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Fadi Boutros

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Какую задачу решает

Проблема — жесткий запуск всех слоев, хотя промежуточные представления часто уже достаточно дискриминативны.

Ключевой результат

Поздние выходы сохраняют большую часть качества; выход на 10-м слое дает до 20% ускорения при падении около 1,5 пункта на IJB-C.

Аннотация

ViT-FREE проверяет, могут ли pretrained ViT выдавать полезные embeddings до последнего блока. Метод добавляет промежуточные выходы и при необходимости дообучает только малые projection layers на synthetic data.

Отправная точка исследования

ViT точны, но дороги для edge-устройств, browser SDK и высокопоточных verification pipelines.

Метод

Фреймворк добавляет exit heads к блокам с одинаковой размерностью, анализирует сходимость attention и embeddings и адаптирует ранние выходы synthetic data без изменения backbone.

Вывод по статье

ViT-FREE дает практический регулятор задержки: несколько режимов, глубокий inference для сложных случаев и настройка ранних выходов synthetic faces.

Статья 032026-06-29cs.CV

Оптимизация подготовки и сжатия изображений для распознавания лиц в пределах 1024 байт

Авторы и организации

Paul Andreas

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Torsten Schlett

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Christoph Busch

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Какую задачу решает

Работа решает практический trade-off storage vs recognition: размер, цвет, сглаживание, resize и codec при лимите 1024 байта.

Ключевой результат

JPEG AI с оптимальными настройками лучший; AVIF и WebP тоже сильны. Grayscale помогает для ICAO-пар, color лучше для менее подходящих probes.

Аннотация

Работа изучает, сколько биометрической полезности сохраняется, когда ICAO-подобное лицо должно поместиться в 1024 байта, например в 2D barcode. Сравниваются preprocessing и codecs.

Отправная точка исследования

Команды документов и identity нуждаются в machine-readable лицах без RFID, но сильное сжатие может незаметно ухудшить verification.

Метод

Авторы сравнивают modern и legacy codecs в двух режимах: обе картинки ICAO и менее контролируемые probes. Оценка идет по downstream recognition, не только по pixel quality.

Вывод по статье

Это редкая работа с прямой ценностью для политики и инженерии: она превращает задачу стандарта в воспроизводимый рецепт compression для temporary documents, offline verification и barcode identity.