← Zurück zum Blog

ForschungsradarGesichtserkennungarXivJuni 2026

Monatliches arXiv-Radar

Gesichtserkennung im Juni 2026: Low-Resolution MoE, effiziente ViTs und 1024-Byte-Reisedokumente

Die Arbeiten im Juni 2026 waren stark deploymentorientiert: schlechte Capture-Qualität, enge Compute-Budgets und extreme Speicherlimits standen im Fokus.

Was dieser Monat zeigt

Gemeinsam führen die Arbeiten zu einem resilienteren Stack: Kapazität für degradierte Gesichter, ViT-Latenz/Qualitäts-Regler und Dokumentbilder unter Byte-Limit.

Paper 012026-06-30cs.CV

FaceMoE: Mixture of Experts für niedrig aufgelöste Gesichtserkennung

Autoren & Institutionen

Kartik Narayan

Johns Hopkins University

Vishal M. Patel

Johns Hopkins University

Welches Problem es löst

Die Arbeit adressiert die Schwäche eines einzelnen Encoders, der nach LR-Finetuning degradierte Regionen schlecht modelliert und HR-Wissen verlieren kann.

Zentrales Ergebnis

Auf elf HR-, Mixed-Quality- und LR-Benchmarks berichten die Autoren klare Zugewinne gegenüber dem Stand der Technik bei sparsamer Expert-Aktivierung.

Abstract

FaceMoE adressiert niedrig aufgelöste Gesichtserkennung, bei der Unschärfe, Verdeckung, geringer Kontrast und HR/LR-Domain-Gaps Identitätssignale schwächen. Ein Transformer wird um FFN-Experten und einen Top-k-Router erweitert, sodass spezialisierte Kapazität sparsam genutzt wird.

Ausgangspunkt der Forschung

Überwachung, Zutritt und Grenzkontrolle vergleichen oft degradierte Probe-Bilder mit sauberen Enrollment-Bildern; kritisch ist der Domain-Gap, nicht nur fehlende Details.

Methode

FaceMoE integriert spezialisierte Feed-forward-Experten in einen Transformer und nutzt Top-k-Routing pro Token. Face-Recognition-Loss, Router-Z-Loss und Load-Balancing-Loss stabilisieren die Spezialisierung.

Einordnung

FaceMoE ist relevant für Teams, die die Bildqualität bei der Erfassung nicht kontrollieren. Routing erhöht Kapazität für degradierte Gesichter, ohne ein separates LR-System oder ein großes dichtes Modell zu benötigen.

Paper 022026-06-10cs.CV

ViT-FREE: effiziente Gesichtserkennung mit Early Exiting und synthetischer Adaptation

Autoren & Institutionen

Tahar Chettaoui

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Guray Ozgur

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Eduarda Caldeira

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Naser Damer

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Fadi Boutros

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Welches Problem es löst

Die Arbeit adressiert starres Full-Model-Inferencing, obwohl Zwischenlayer für viele Vergleiche bereits diskriminativ genug sind.

Zentrales Ergebnis

Spätere Exits erhalten die meiste Verifikationsleistung; Layer 10 bringt bis zu 20% Speedup bei etwa 1,5 Punkten Verlust auf IJB-C.

Abstract

ViT-FREE untersucht, ob vortrainierte Vision Transformer vor dem letzten Block brauchbare Face-Verification-Embeddings liefern. Mehrere Exits nutzen Zwischenrepräsentationen; optional werden nur kleine Projektionsschichten mit synthetischen Daten angepasst.

Ausgangspunkt der Forschung

ViT-Gesichtserkennung ist genau, aber teuer für Edge-Geräte, Browser-SDKs und hohe Durchsatzanforderungen.

Methode

Das Framework setzt Exit-Heads auf Transformer-Blöcke mit gleicher Dimensionalität, analysiert Attention- und Embedding-Konvergenz und passt flache Exits mit synthetischen Daten leichtgewichtig an.

Einordnung

ViT-FREE bietet einen praktischen Latenzregler. Teams können mehrere Betriebspunkte anbieten, tiefe Inferenz für schwierige Fälle reservieren und flache Exits mit synthetischen Gesichtern kalibrieren.

Paper 032026-06-29cs.CV

Optimierung von Bildvorbereitung und Kompression für Gesichtserkennung innerhalb von 1024 Bytes

Autoren & Institutionen

Paul Andreas

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Torsten Schlett

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Christoph Busch

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Welches Problem es löst

Die Arbeit löst einen konkreten Speicher-gegen-Erkennungs-Trade-off: welche Größe, Farbe, Glättung, Skalierung und Codecs bei 1024 Bytes funktionieren.

Zentrales Ergebnis

JPEG AI ist mit optimierten Einstellungen am stärksten; AVIF und WebP sind ebenfalls gut. Graustufen helfen bei ICAO-Paaren, Farbe bei schwächeren Probes.

Abstract

Die Arbeit untersucht, wie viel biometrischer Nutzen bleibt, wenn ein ICAO-ähnliches Referenzgesicht in 1024 Bytes, etwa einem 2D-Barcode, gespeichert werden muss. Verglichen werden Preprocessing und Codecs wie JPEG AI, AVIF und WebP.

Ausgangspunkt der Forschung

Dokumenten- und Identity-Teams brauchen maschinenlesbare Gesichtsdaten auch ohne RFID-Chip; aggressive Kompression kann Verifikation unbemerkt verschlechtern.

Methode

Die Autoren evaluieren moderne und klassische Codecs in zwei Szenarien: ICAO-konforme Paare und weniger kontrollierte Probes. Gemessen wird downstream Gesichtserkennung, nicht nur Pixelqualität.

Einordnung

Die Arbeit hat direkten Policy- und Engineering-Wert: Sie macht aus einem Standardisierungsproblem ein reproduzierbares Kompressionsrezept für temporäre Dokumente, Offline-Verifikation und Barcode-Identität.