Авторы и организации
Kartik Narayan
Johns Hopkins University
Vishal M. Patel
Johns Hopkins University
Какую задачу решает
Работа решает слабость единого энкодера: после LR fine-tuning он может плохо описывать деградированные зоны и терять HR-знание.
Ключевой результат
На 11 HR, mixed-quality и LR бенчмарках авторы сообщают явное превосходство над SOTA при разреженной активации экспертов.
Аннотация
FaceMoE решает задачу распознавания лиц низкого разрешения, где размытие, окклюзии, низкий контраст и разрыв HR/LR ослабляют признаки личности. Transformer дополняется FFN-экспертами и top-k маршрутизатором.
Отправная точка исследования
В видеонаблюдении, доступе и пограничных сценариях часто сравнивают деградированные probe-изображения с чистой регистрацией; важен не только дефицит деталей, но и domain gap.
Метод
FaceMoE добавляет специализированные FFN-эксперты в transformer и применяет top-k маршрутизацию токенов. Loss распознавания, router z-loss и load balancing стабилизируют специализацию.
Вывод по статье
FaceMoE полезен там, где качество захвата нельзя контролировать. Роутинг добавляет емкость для деградированных лиц без отдельной LR-системы и без полной стоимости большого dense-моделя.