← Volver al Blog
Radar de investigaciónDetección facialarXivMarzo de 2026

Radar mensual de arXiv

Radar de detección facial de marzo de 2026: pipelines de landmarks, calibración y anti-spoofing

Los artículos de detectores faciales puros fueron relativamente escasos en arXiv durante marzo de 2026, por lo que este radar amplía el enfoque hacia el stack más amplio de detección facial: extracción de landmarks, geometría favorable para la calibración y verificaciones anti-spoofing situadas justo antes del reconocimiento facial en producción. Ese encuadre más amplio refleja mejor cómo se evalúan y despliegan los sistemas reales de detección facial.

Lo que señala este mes

El hilo conductor es el realismo de despliegue: pipelines geométricos ligeros, adaptación por sesión y razonamiento de liveness se están volviendo tan importantes como la capacidad bruta de detección en stacks faciales comerciales.

Artículo 012026-03-12cs.CV

Meta-calibración por sesión orientada al despliegue para seguimiento de mirada con webcam basado en landmarks

Autores e instituciones

Chenkai Zhang

Independent Researcher, Wenzhou, Zhejiang, China

Qué problema resuelve

El trabajo aborda cómo hacer práctica la geometría facial basada en landmarks bajo presupuestos pequeños de calibración por sesión, movimiento de cabeza y restricciones de tiempo de ejecución.

Resultado clave

El codificador exportado enfocado en los ojos ocupa solo 4.76 MB en ONNX y permite inferencia calibrada en navegador en torno a 12.6 ms por muestra, superando a Elastic Net en sus evaluaciones de tipo fijación.

Resumen

El seguimiento práctico de la mirada con webcam está limitado no solo por el error, sino también por la carga de calibración, la robustez ante movimiento de cabeza y session drift, la huella de ejecución y el uso en navegador. Por ello, apuntamos a un punto de operación orientado al despliegue en lugar del régimen de grandes backbones basados en imagen. Planteamos la estimación del point-of-regard basada en landmarks como una adaptación por sesión: un codificador geométrico compartido produce embeddings que pueden alinearse a una nueva sesión a partir de un pequeño conjunto de calibración. Presentamos Equivariant Meta-Calibrated Gaze (EMC-Gaze), un método ligero basado solo en landmarks que combina un codificador de grafos de landmarks E(3)-equivariante, geometría ocular local, énfasis binocular, supervisión auxiliar de dirección de mirada 3D y un calibrador ridge de forma cerrada diferenciado mediante metaentrenamiento episódico. Para reducir el pose leakage, utilizamos una pérdida de consistencia de canonicalización de dos vistas. El predictor desplegado usa únicamente landmarks faciales y ajusta una cabeza ridge por sesión a partir de una breve calibración. En una evaluación interactiva de tipo fijación sobre 33 sesiones a 100 cm, EMC-Gaze logra 5.79 +/- 1.81 deg RMSE tras una calibración de 9 puntos frente a 6.68 +/- 2.34 deg de Elastic Net; la ganancia es mayor en consultas con la cabeza quieta (2.92 +/- 0.75 deg vs. 4.45 +/- 0.30 deg). En tres particiones holdout de sujetos de 10 personas cada una, EMC-Gaze mantiene la ventaja (5.66 +/- 0.19 deg vs. 6.49 +/- 0.33 deg). En MPIIFaceGaze con calibración corta por sesión, el modelo enfocado en los ojos alcanza 8.82 +/- 1.21 deg con calibración de 16-shot, empata con Elastic Net en 1-shot y lo supera a partir de 3-shot. El codificador exportado enfocado en los ojos tiene 944,423 parámetros, ocupa 4.76 MB en ONNX y permite predicción calibrada en navegador en 12.58/12.58/12.90 ms por muestra (media/mediana/p90) en Chromium 145 con ONNX Runtime Web. Estos resultados sitúan a EMC-Gaze como un punto de operación favorable para la calibración, más que como una afirmación universal de state of the art frente a sistemas basados en apariencia más pesados.

Punto de partida

En muchas canalizaciones prácticas con webcam, la parte más difícil no es detectar un rostro, sino mantener estable la estimación geométrica bajo session drift, movimiento casual de cabeza, calibración corta y límites de cómputo en navegador. El artículo parte de la observación de que muchos sistemas de gaze de alta precisión asumen un entorno de ejecución más pesado y un hardware más indulgente de lo que permiten los despliegues reales. Por eso apunta a un punto de operación más acotado pero muy práctico: inferencia landmark-only ligera que aun así se adapta rápido a cada nueva sesión.

Método

EMC-Gaze formula la estimación de mirada basada en landmarks como un problema de adaptación por sesión. Combina un codificador de grafos de landmarks E(3)-equivariante, geometría ocular local más rica, énfasis binocular y una cabeza de calibración ridge en forma cerrada diferenciada durante el metaentrenamiento. El método también añade canonicalization consistency y supervisión 3D auxiliar en entrenamiento para que la robustez a la pose se aprenda en la representación en lugar de dejarse a un gran modelo en despliegue.

Conclusión del artículo

El principal valor del trabajo está en su realismo de despliegue. No afirma superar a todos los gaze trackers appearance-based de gran tamaño, pero sí demuestra que un modelo ONNX pequeño con calibración corta aún puede aportar mejoras significativas frente a baselines geométricas clásicas. Para equipos que construyen análisis facial en navegador o en el edge, es un ejemplo sólido de cómo sacrificar algo de brillo de leaderboard a cambio de mucho mejor encaje operativo.

Artículo 022026-03-25cs.CV

¿Basta la geometría? Una evaluación de la estimación de mirada basada en landmarks

Autores e instituciones

Daniele Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Thomas Agostinelli

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Andrea Generosi

Department of Science and Information Technology, Universita Pegaso, Italy

Maura Mengoni

Department of Industrial Engineering and Mathematical Sciences, Universita Politecnica delle Marche, Italy

Qué problema resuelve

El artículo evalúa el techo real del modelado landmark-only en conjuntos de datos modernos de gaze y en escenarios cross-domain, en lugar de asumir que las canalizaciones pesadas de CNN son obligatorias.

Resultado clave

Los modelos landmark-only quedan por detrás en precisión within-domain, pero se acercan mucho más a baselines tipo ResNet18 en generalización cross-domain, lo que sugiere que la geometría sigue siendo sorprendentemente competitiva cuando importa la robustez.

Resumen

La estimación de mirada basada en apariencia depende con frecuencia de Convolutional Neural Networks (CNNs) profundas. Estos modelos son precisos, pero computacionalmente costosos y actúan como "black boxes", ofreciendo poca interpretabilidad. Los métodos geométricos basados en landmarks faciales son una alternativa ligera, pero sus límites de rendimiento y capacidades de generalización siguen poco explorados en benchmarks modernos. En este estudio realizamos una evaluación exhaustiva de la estimación de mirada basada en landmarks. Introducimos una canalización estandarizada para extraer y normalizar landmarks de tres conjuntos de datos a gran escala (Gaze360, ETH-XGaze y GazeGene) y entrenamos modelos de regresión ligeros, específicamente árboles Extreme Gradient Boosted y dos arquitecturas neuronales: un Multi-Layer Perceptron (MLP) holístico y un MLP siamés diseñado para capturar geometría binocular. Encontramos que los modelos basados en landmarks exhiben un menor rendimiento en la evaluación within-domain, probablemente debido al ruido introducido en los conjuntos de datos por el detector de landmarks. No obstante, en la evaluación cross-domain, las arquitecturas MLP propuestas muestran capacidades de generalización comparables a las de las líneas base ResNet18. Estos hallazgos sugieren que las características geométricas dispersas codifican suficiente información para una estimación de mirada robusta, allanando el camino hacia aplicaciones edge eficientes, interpretables y respetuosas con la privacidad. El código fuente y los conjuntos de datos basados en landmarks generados están disponibles en https://github.com/daniele-agostinelli/LandmarkGaze.git.

Punto de partida

Los modelos appearance-based dominan la estimación moderna de la mirada, pero siguen siendo costosos, opacos y más difíciles de desplegar en entornos sensibles a la privacidad. El modelado landmark-only promete una alternativa mucho más ligera, aunque el campo todavía carece de una comparación rigurosa que pruebe si la geometría dispersa es solo una aproximación barata o una representación realmente competitiva. Los autores parten de esa brecha y de la pregunta más amplia de cuánta información puede transportar la geometría facial por sí sola entre distintos conjuntos de datos.

Método

El artículo construye primero versiones landmark-based normalizadas de tres grandes conjuntos de datos —Gaze360, ETH-XGaze y GazeGene— y luego entrena tres regresores ligeros sobre esas características: XGBoost, un MLP holístico y un MLP siamés adaptado a la geometría binocular. La evaluación incluye pruebas within-domain y cross-domain, de modo que el estudio puede separar el ajuste al benchmark de la verdadera generalización. Los autores también analizan la importancia de las características e identifican el ruido del landmark detector como uno de los principales cuellos de botella que limitan el techo de los sistemas geometry-only.

Conclusión del artículo

La conclusión principal es que la geometría por sí sola no basta para ganar todos los benchmarks, pero es mucho más fuerte de lo que muchos suponen cuando importa la robustez cross-domain. Los mejores MLP landmark-based quedan por detrás de los modelos de imagen en precisión within-domain, pero se vuelven sorprendentemente competitivos en cuanto aparece un domain shift. Para productos edge AI y orientados a la privacidad, eso convierte a la geometría dispersa en una opción estratégicamente interesante y no en una simple curiosidad de investigación.

Artículo 032026-03-01cs.CV

De la intuición a la investigación: un marco MLLM de razonamiento aumentado con herramientas para Face Anti-Spoofing generalizable

Autores e instituciones

Haoyuan Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Baidu Inc.

Keyao Wang

Baidu Inc.

Guosheng Zhang

Baidu Inc.

Haixiao Yue

Baidu Inc.

Zhiwen Tan

Baidu Inc.

Siran Peng

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Tianshuo Zhang

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiao Tan

Baidu Inc.

Kunbin Chen

Baidu Inc.

Wei He

Baidu Inc.

Jingdong Wang

Baidu Inc.

Ajian Liu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Xiangyu Zhu

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

Zhen Lei

SAI, University of Chinese Academy of Sciences

MAIS, Institute of Automation, Chinese Academy of Sciences

CAIR, HKISI, CAS

Macao University of Science and Technology

Qué problema resuelve

El artículo aborda la débil generalización de los sistemas de Face Anti-Spoofing y estudia si las canalizaciones multimodales reforzadas con razonamiento pueden inspeccionar la evidencia de ataque con mayor robustez.

Resultado clave

El abstract presenta como contribución clave una generalización más fuerte en Face Anti-Spoofing mediante razonamiento explícito e integración de evidencia, justo lo que necesitan los sistemas prácticos de liveness ante nuevos formatos de ataque.

Resumen

El reconocimiento facial sigue siendo vulnerable a los presentation attacks, lo que exige soluciones robustas de Face Anti-Spoofing (FAS). Los métodos recientes de FAS basados en MLLM reformulan la tarea de clasificación binaria como la generación de breves descripciones textuales para mejorar la generalización cross-domain. Sin embargo, su capacidad de generalización sigue siendo limitada, ya que dichas descripciones capturan principalmente pistas semánticas intuitivas (por ejemplo, contornos de máscara) mientras tienen dificultades para percibir patrones visuales de grano fino. Para abordar esta limitación, incorporamos herramientas visuales externas en los MLLMs con el fin de fomentar una investigación más profunda de sutiles indicios de spoofing. En concreto, proponemos el marco Tool-Augmented Reasoning FAS (TAR-FAS), que reformula la tarea de FAS como un paradigma Chain-of-Thought with Visual Tools (CoT-VT), permitiendo que los MLLMs comiencen con observaciones intuitivas e invoquen de forma adaptativa herramientas visuales externas para una investigación detallada. Con este fin, diseñamos una canalización de anotación de datos aumentada con herramientas y construimos el conjunto de datos ToolFAS-16K, que contiene trayectorias de razonamiento multi-turn con uso de herramientas. Además, introducimos una canalización de entrenamiento de FAS consciente de herramientas, donde Diverse-Tool Group Relative Policy Optimization (DT-GRPO) permite al modelo aprender de forma autónoma un uso eficiente de herramientas. Amplios experimentos bajo un desafiante protocolo cross-domain one-to-eleven demuestran que TAR-FAS alcanza rendimiento SOTA al tiempo que proporciona investigación visual de grano fino para una detección de spoofing confiable.

Punto de partida

Los sistemas de Face Anti-Spoofing suelen colapsar cuando cambia el estilo de ataque, porque en silencio sobreajustan a un pequeño conjunto de artefactos recurrentes de los conjuntos de entrenamiento. Los autores parten de la brecha entre el rendimiento en benchmark y la robustez en el mundo real, donde nuevos ataques impresos, replay attacks o spoofs generativos pueden verse distintos de todo lo visto antes. Enmarcan el problema como un paso desde el simple pattern matching hacia un proceso más explícito de búsqueda de evidencia y razonamiento.

Método

El artículo propone un marco de razonamiento aumentado con herramientas para Face Anti-Spoofing generalizable, en el que el modelo no se detiene en una primera impresión visual, sino que reúne pistas de apoyo de forma progresiva. En lugar de confiar en un único clasificador end-to-end para absorber todas las señales de ataque, el método enfatiza pasos intermedios de investigación e integración explícita de evidencia. Ese diseño busca que el juicio de liveness dependa menos de artefactos frágiles del dataset y sea más resistente a formatos de spoof desconocidos.

Conclusión del artículo

Aunque el trabajo está planteado en torno al anti-spoofing, su mensaje más amplio es relevante para todo el stack de detección y verificación facial: la robustez proviene de una mejor recolección de evidencia, no solo de backbones más grandes. Para los equipos prácticos, la idea es convincente porque el liveness suele ser el primer punto de fallo real en sistemas de KYC y control de acceso. Un detector que razone sobre la evidencia de spoof en vez de memorizar un dataset podría ser mucho más útil en producción.