← Voltar ao Blog
Radar de pesquisaReconhecimento facialarXivJunho de 2026

Radar mensal do arXiv

Reconhecimento facial em junho de 2026: MoE de baixa resolução, ViTs eficientes e documentos de 1024 bytes

A pesquisa de junho ficou orientada a implantação: captura ruim, orçamento de computação apertado e limites extremos de armazenamento.

O que este mês sinaliza

Juntas, levam a um stack mais resiliente: capacidade para faces degradadas, trade-off latência/qualidade em ViT e documentos com limite de bytes.

Artigo 012026-06-30cs.CV

FaceMoE: mistura de especialistas para reconhecimento facial de baixa resolução

Autores e instituições

Kartik Narayan

Johns Hopkins University

Vishal M. Patel

Johns Hopkins University

Que problema resolve

O artigo trata a fraqueza de um encoder único, que pode perder conhecimento HR e modelar mal regiões degradadas após ajuste LR.

Resultado-chave

Em onze benchmarks HR, mistos e LR, os autores relatam ganhos claros sobre o estado da arte com ativação esparsa de especialistas.

Resumo

FaceMoE mira reconhecimento facial de baixa resolução, em que blur, oclusão, baixo contraste e diferença HR/LR reduzem pistas de identidade. O transformer usa especialistas FFN e roteador top-k para ativar capacidade especializada.

Ponto de partida da pesquisa

Vigilância, acesso e fronteira comparam probes degradados com cadastro limpo; o problema é também o gap de domínio, não só a falta de detalhes.

Método

FaceMoE insere especialistas feed-forward em um transformer e usa roteamento top-k por token. A loss de reconhecimento, z-loss do roteador e balanceamento de carga estabilizam a especialização.

Síntese do artigo

FaceMoE é útil quando a qualidade de captura não é controlável. O roteamento adiciona capacidade para faces degradadas sem treinar outro sistema LR nem pagar todo o custo de um modelo denso maior.

Artigo 022026-06-10cs.CV

ViT-FREE: reconhecimento facial eficiente com saída antecipada e adaptação sintética

Autores e instituições

Tahar Chettaoui

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Guray Ozgur

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Eduarda Caldeira

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Naser Damer

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Department of Computer Science, Technical University of Darmstadt, Germany

Fadi Boutros

Fraunhofer Institute for Computer Graphics Research IGD, Germany

Que problema resolve

O problema é executar sempre todo o modelo, mesmo quando camadas intermediárias já distinguem bem muitos casos.

Resultado-chave

Saídas tardias preservam a maior parte da verificação; sair na camada 10 dá até 20% de aceleração com queda de ~1,5 ponto no IJB-C.

Resumo

ViT-FREE investiga se um ViT pré-treinado gera embeddings úteis antes do bloco final. Ele adiciona múltiplas saídas intermediárias e ajusta apenas pequenas projeções com dados sintéticos.

Ponto de partida da pesquisa

ViTs são precisos, mas caros para edge, SDKs de navegador e verificação de alto volume.

Método

O framework adiciona heads de saída a blocos com mesma dimensionalidade, analisa convergência de atenção/embedding e adapta saídas rasas com dados sintéticos sem alterar o backbone.

Síntese do artigo

ViT-FREE oferece um controle prático de latência: múltiplos pontos de operação, inferência profunda para casos difíceis e ajuste de saídas rasas com faces sintéticas.

Artigo 032026-06-29cs.CV

Otimização de preparação e compressão de imagem para reconhecimento facial em 1024 bytes

Autores e instituições

Paul Andreas

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Torsten Schlett

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Christoph Busch

Department of Computer Science, Hochschule Darmstadt, Schöfferstraße 3, 64295 Darmstadt, Germany

Que problema resolve

Resolve um trade-off concreto entre armazenamento e reconhecimento: tamanho, cor, suavização, redimensionamento e codec em 1024 bytes.

Resultado-chave

JPEG AI é o melhor com ajustes otimizados; AVIF e WebP também vão bem. Tons de cinza ajudam em pares ICAO, cor é melhor para probes menos adequados.

Resumo

O trabalho mede quanta utilidade biométrica resta quando uma imagem facial tipo ICAO precisa caber em 1024 bytes, como em código 2D de documento temporário. Compara preprocessamento e codecs.

Ponto de partida da pesquisa

Equipes de identidade precisam de referências faciais legíveis sem RFID, mas compressão agressiva pode degradar a verificação silenciosamente.

Método

Os autores avaliam codecs modernos e antigos em dois regimes: pares ICAO e probes menos controlados. Ajustam preprocessamento e medem reconhecimento, não só qualidade visual.

Síntese do artigo

É um artigo com valor direto para política e engenharia: transforma um problema de padrão em receita reproduzível para documentos temporários, verificação offline e identidade por código.