← Retour au Blog
Radar de rechercheReconnaissance facialearXivJuin 2026

Radar arXiv mensuel

Reconnaissance faciale en juin 2026 : MoE basse résolution, ViT efficaces et documents à 1024 octets

Les travaux de juin 2026 se concentrent sur le déploiement : capture dégradée, budgets de calcul serrés et limites de stockage extrêmes.

Ce que révèle ce mois-ci

Ensemble, ces travaux rendent le stack plus résilient : capacité pour visages dégradés, compromis latence/qualité ViT et documents sous contrainte d’octets.

Article 012026-06-30cs.CV

FaceMoE : mélange d’experts pour la reconnaissance faciale basse résolution

Auteurs & institutions

Kartik Narayan

Johns Hopkins University

Vishal M. Patel

Johns Hopkins University

Problème traité

L’article traite la faiblesse d’un encodeur unique, susceptible de perdre les connaissances HR et de mal gérer les régions dégradées après adaptation LR.

Résultat clé

Sur onze benchmarks HR, mixtes et LR, les auteurs rapportent des gains nets par rapport à l’état de l’art avec activation parcimonieuse des experts.

Résumé

FaceMoE traite la reconnaissance faciale basse résolution, où flou, occlusions, faible contraste et écart HR/LR affaiblissent les indices d’identité. Le transformer ajoute des experts FFN et un routeur top-k pour mobiliser une capacité spécialisée.

Point de départ de la recherche

Surveillance, contrôle d’accès et frontière comparent souvent des probes dégradés à des images d’enrôlement propres ; le risque vient aussi du domain gap.

Méthode

FaceMoE insère des experts feed-forward dans un transformer et applique un routage top-k par token. La loss de reconnaissance, la z-loss du routeur et l’équilibrage de charge stabilisent la spécialisation.

À retenir

FaceMoE aide les équipes qui ne maîtrisent pas la qualité de capture. Le routage ajoute de la capacité pour les visages dégradés sans système LR séparé ni coût complet d’un grand modèle dense.

Article 022026-06-10cs.CV

ViT-FREE : reconnaissance faciale efficace par sortie anticipée et adaptation synthétique

Auteurs & institutions

Tahar Chettaoui

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Guray Ozgur

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Eduarda Caldeira

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Naser Damer

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Fadi Boutros

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Problème traité

Le problème est l’inférence complète systématique, même quand des couches intermédiaires suffisent pour beaucoup de comparaisons.

Résultat clé

Les sorties tardives conservent l’essentiel des performances ; la couche 10 apporte jusqu’à 20 % d’accélération avec environ 1,5 point perdu sur IJB-C.

Résumé

ViT-FREE étudie si un ViT préentraîné fournit des embeddings utiles avant le dernier bloc. Il ajoute plusieurs sorties intermédiaires et ajuste seulement de petites projections avec des données synthétiques.

Point de départ de la recherche

Les ViT sont précis mais coûteux pour l’edge, les SDK navigateur et les pipelines de vérification à fort débit.

Méthode

Le cadre ajoute des têtes de sortie aux blocs de même dimension, analyse la convergence attention/embedding et adapte les sorties peu profondes avec données synthétiques sans changer le backbone.

À retenir

ViT-FREE offre un réglage pratique de latence : plusieurs points d’exploitation, inférence profonde pour les cas difficiles et adaptation des sorties rapides avec visages synthétiques.

Article 032026-06-29cs.CV

Optimisation de la préparation et de la compression d’image pour la reconnaissance faciale en 1024 octets

Auteurs & institutions

Paul Andreas

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Torsten Schlett

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Christoph Busch

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Problème traité

Il traite un compromis concret stockage/reconnaissance : taille, couleur, lissage, redimensionnement et codec sous 1024 octets.

Résultat clé

JPEG AI est le meilleur avec réglages optimisés ; AVIF et WebP restent solides. Le gris aide pour les paires ICAO, la couleur pour les probes moins adaptés.

Résumé

Ce travail étudie l’utilité biométrique restante quand une image faciale type ICAO doit tenir en 1024 octets, par exemple dans un code 2D de documents temporaires. Il compare prétraitements et codecs.

Point de départ de la recherche

Les équipes identité ont besoin de références faciales lisibles sans RFID, mais une compression forte peut casser la vérification sans alerte évidente.

Méthode

Les auteurs évaluent des codecs modernes et anciens dans deux régimes : paires ICAO et probes moins contrôlés. Ils règlent le prétraitement et mesurent la reconnaissance, pas seulement la qualité pixel.

À retenir

L’article a une valeur immédiate pour la politique et l’ingénierie : il transforme un problème de standard en recette reproductible pour documents temporaires, vérification hors ligne et identité par code.