Autoren & Institutionen
Kartik Narayan
Johns Hopkins University
Vishal M. Patel
Johns Hopkins University
Welches Problem es löst
Die Arbeit adressiert die Schwäche eines einzelnen Encoders, der nach LR-Finetuning degradierte Regionen schlecht modelliert und HR-Wissen verlieren kann.
Zentrales Ergebnis
Auf elf HR-, Mixed-Quality- und LR-Benchmarks berichten die Autoren klare Zugewinne gegenüber dem Stand der Technik bei sparsamer Expert-Aktivierung.
Abstract
FaceMoE adressiert niedrig aufgelöste Gesichtserkennung, bei der Unschärfe, Verdeckung, geringer Kontrast und HR/LR-Domain-Gaps Identitätssignale schwächen. Ein Transformer wird um FFN-Experten und einen Top-k-Router erweitert, sodass spezialisierte Kapazität sparsam genutzt wird.
Ausgangspunkt der Forschung
Überwachung, Zutritt und Grenzkontrolle vergleichen oft degradierte Probe-Bilder mit sauberen Enrollment-Bildern; kritisch ist der Domain-Gap, nicht nur fehlende Details.
Methode
FaceMoE integriert spezialisierte Feed-forward-Experten in einen Transformer und nutzt Top-k-Routing pro Token. Face-Recognition-Loss, Router-Z-Loss und Load-Balancing-Loss stabilisieren die Spezialisierung.
Einordnung
FaceMoE ist relevant für Teams, die die Bildqualität bei der Erfassung nicht kontrollieren. Routing erhöht Kapazität für degradierte Gesichter, ohne ein separates LR-System oder ein großes dichtes Modell zu benötigen.