著者・所属
Kartik Narayan
Johns Hopkins University
Vishal M. Patel
Johns Hopkins University
何を解決するか
単一encoderを低解像度データにfine-tuneすると、劣化領域への適応が不十分になり、高解像度の識別知識も失いやすい。
主要結果
11の高解像度、混合品質、低解像度ベンチマークで、既存の低解像度顔認識手法を明確に上回り、expert activationは疎のまま保たれた。
要旨
FaceMoEは、ぼけ、遮蔽、低コントラスト、高解像度ギャラリーとの不一致でID手掛かりが失われる低解像度顔認識を扱う。Transformerに複数のFFN expertとtop-k routerを組み込み、顔領域や解像度ごとに専門化した容量を使いながら事前学習知識を保持する。
研究の出発点
監視、入退室、国境管理では劣化したprobeと鮮明な登録画像を照合することが多い。問題は情報量の少なさだけでなく、適応時に高品質画像での認識能力を忘れるdomain gapである。
手法
FaceMoEはTransformerに専門FFN expertを挿入し、top-k routingで各tokenが少数のexpertを選ぶ。認識lossにrouter z-lossとload balancing lossを加え、すべての画像で全expertを動かさずに安定した専門化を促す。
論文要点
FaceMoEは撮影品質を制御できないチームに有用である。大きな示唆は、別の低解像度専用システムを作らず、巨大なdense modelの全コストも払わずに、劣化顔向け容量をroutingで増やせる点にある。