Inicio masINE

Noticias del Instituto Nacional de Estadística

Está Vd. en: Revista digital del INE / Otros temas

El INE participa en el Congreso sobre Fundamentos y Avances de Aprendizaje Automático en la Estadística Oficial

17-04-24

Sandra Barragán, durante su intervención en el Congreso Sandra Barragán, durante su intervención en el Congreso

La Oficina Federal de Estadística de Alemania (DESTATIS) organizó entre el 3 y el 5 de abril el Congreso sobre Fundamentos y Avances de Aprendizaje Automático en la Estadística Oficial (Foundations and Advances of Machine Learning in Official Statistics).

El congreso reunió a unos 150 estadísticos e investigadores de más de 15 países para compartir los esfuerzos de las oficinas de estadística por incorporar las técnicas de aprendizaje automático y aprendizaje profundo en la producción de estadísticas oficiales.

Los expertos presentaron, identificaron y debatieron sobre los desafíos que plantean estas técnicas, así como sobre propuestas, experiencias piloto, desarrollos informáticos y enfoques para incluir y usar de modo óptimo estas innovaciones.

En el congreso se desarrollaron cinco sesiones plenarias, se presentó el proyecto europeo One-stop-shop for Artificial Intelligence and Machine Learning for Oficial Statistics y contó, además, con tres sesiones paralelas.

Retos del aprendizaje automático

Los conferenciantes plenarios subrayaron diversos retos que el aprendizaje automático supone para la producción de estadísticas oficiales.

Entre ellos, la combinación de la metodología en poblaciones finitas con los modelos de aprendizaje automático y profundo, la generalización del modelo de error total, la interpretabilidad de estos complejos modelos, la importancia de la inferencia y la estimación de la incertidumbre, el adecuado uso de estudios de simulación y el enfoque correcto con muestras complejas.

Por su parte, las sesiones paralelas recorrieron temas como el uso de modelos grandes de lenguaje, la validación e imputación de datos, la clasificación de textos y codificación, la integración de datos, la optimización de procesos, la calidad e interpretabilidad, el muestreo y diversos aspectos metodológicos y aplicaciones a dominios estadísticos particulares.

La participación del INE

El INE presentó tres contribuciones, a través de David Salgado, subdirector general de Metodología y Diseño de Muestras, y de Sandra Barragán y Luis Sanguiao, jefes de área de la misma unidad. En ellas mostraron los esfuerzos llevados a cabo por asimilar estas técnicas, identificar las funciones de negocio que se pueden optimizar y desarrollar pruebas de concepto.

Desde un punto de vista estratégico, se presentaron experiencias piloto y las primeras implementaciones en la producción de algunas operaciones estadísticas. Se compartieron los resultados del uso de random forests para la depuración selectiva de variables categóricas, la estimación adelantada de índices económicos coyunturales, la desagregación temporal de diseños muestrales, la integración de datos procedentes de encuestas y registros administrativos y la estimación en poblaciones finitas asistida por algoritmos de aprendizaje automático.

Como aplicación concreta de estos modelos, la segunda contribución se centró en la integración de datos de encuestas y administrativos (tributarios) para la confección de índices económicos coyunturales. El uso de modelos de aprendizaje automático surge como una herramienta versátil para el control de errores de validez y de medida, optimizando así la validación de los datos. Esto abre la puerta para la generalización del uso de datos administrativos, reduciendo la carga de respuesta, al tiempo que se mantiene la calidad de las estimaciones corrigiendo los errores ajenos al muestreo.

Construcción de estimadores

Con un enfoque más metodológico, se presentó finalmente la propuesta de construcción de estimadores en poblaciones finitas basados en modelos de aprendizaje automático. Estos estimadores presentan la ventaja de la capacidad predictiva de estos modelos, al tiempo que usan los diseños muestrales para estimar el sesgo y el error cuadrático medio, controlando, por tanto, errores de especificación.

En la primera reunión del Comité de Métodos y Procesos Estadísticos, se creó el Grupo Técnico de Aprendizaje Automático. Su objetivo es encauzar de modo coordinado estos esfuerzos y otras iniciativas en marcha, para incorporar estas técnicas a la producción estadística del INE.

 

NIPO: 222-24-022-7
ISSN: 2255-5625
© INE 2024