← Volver al Blog
Radar de investigaciónReconocimiento facialarXivJunio de 2026

Radar mensual de arXiv

Reconocimiento facial en junio de 2026: MoE de baja resolución, ViTs eficientes y documentos de 1024 bytes

La investigación de junio se centró en despliegue: captura deficiente, presupuestos de cómputo estrictos y límites extremos de almacenamiento.

Lo que señala este mes

En conjunto, empujan un stack más resiliente: capacidad para rostros degradados, trade-offs latencia/calidad en ViT y documentos bajo límite de bytes.

Artículo 012026-06-30cs.CV

FaceMoE: mezcla de expertos para reconocimiento facial de baja resolución

Autores e instituciones

Kartik Narayan

Johns Hopkins University

Vishal M. Patel

Johns Hopkins University

Qué problema resuelve

El trabajo aborda la debilidad de un único encoder compartido, que puede perder conocimiento HR y no modelar bien regiones degradadas tras fine-tuning LR.

Resultado clave

En once benchmarks HR, mixtos y LR, los autores reportan mejoras claras frente al estado del arte con activación dispersa de expertos.

Resumen

FaceMoE aborda reconocimiento facial de baja resolución, donde desenfoque, oclusión, bajo contraste y brecha HR/LR debilitan la identidad. Añade expertos FFN y un enrutador top-k a un transformer para activar capacidad especializada de forma dispersa.

Punto de partida

Vigilancia, control de acceso y frontera comparan probes degradados con imágenes de alta calidad; el riesgo es la brecha de dominio, no solo la falta de detalle.

Método

FaceMoE inserta expertos feed-forward en un transformer y usa routing top-k por token. La pérdida de reconocimiento, z-loss del router y balanceo de carga estabilizan la especialización.

Conclusión del artículo

FaceMoE sirve a equipos que no controlan la calidad de captura. Su valor es añadir capacidad para rostros degradados mediante routing sin entrenar otro sistema LR ni pagar todo el coste de un modelo denso mayor.

Artículo 022026-06-10cs.CV

ViT-FREE: reconocimiento facial eficiente con salida temprana y adaptación sintética

Autores e instituciones

Tahar Chettaoui

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Guray Ozgur

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Eduarda Caldeira

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Naser Damer

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Fadi Boutros

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Qué problema resuelve

El problema es ejecutar siempre todo el modelo, aunque capas intermedias ya basten para muchas comparaciones.

Resultado clave

Las salidas tardías conservan casi todo el rendimiento; salir en capa 10 da hasta 20% de aceleración con ~1,5 puntos menos en IJB-C.

Resumen

ViT-FREE estudia si un ViT preentrenado puede producir embeddings útiles antes del bloque final. Añade varias salidas intermedias y ajusta solo proyecciones pequeñas con datos sintéticos.

Punto de partida

Los ViT son precisos, pero costosos para edge, SDKs de navegador y verificación de alto volumen.

Método

El marco añade cabezas de salida a bloques con igual dimensionalidad, analiza convergencia de atención y embeddings, y adapta salidas tempranas con datos sintéticos sin cambiar el backbone.

Conclusión del artículo

ViT-FREE ofrece un control práctico de latencia: varios puntos operativos, inferencia profunda para casos difíciles y ajuste de salidas tempranas con rostros sintéticos.

Artículo 032026-06-29cs.CV

Optimización de preparación y compresión de imágenes para reconocimiento facial en 1024 bytes

Autores e instituciones

Paul Andreas

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Torsten Schlett

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Christoph Busch

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Qué problema resuelve

Resuelve un compromiso práctico entre almacenamiento y reconocimiento: tamaño, color, suavizado, escalado y códec dentro de 1024 bytes.

Resultado clave

JPEG AI rinde mejor con ajustes optimizados; AVIF y WebP también son sólidos. Escala de grises ayuda en pares ICAO, color en probes menos adecuados.

Resumen

El trabajo estudia cuánta utilidad biométrica queda cuando una imagen facial tipo ICAO debe caber en 1024 bytes, por ejemplo en un código 2D de documentos temporales. Compara preprocesamiento y varios códecs.

Punto de partida

Equipos de identidad necesitan referencias faciales legibles sin RFID, pero la compresión agresiva puede dañar la verificación sin señales obvias.

Método

Evalúan códecs modernos y heredados en dos regímenes: pares ICAO y probes menos controlados. Ajustan preprocesamiento y miden reconocimiento, no solo calidad visual.

Conclusión del artículo

Tiene valor inmediato para política e ingeniería: convierte un problema de estándares en una receta reproducible para documentos temporales, verificación offline e identidad por código 2D.