Inicio masINE

Noticias del Instituto Nacional de Estadística

Está Vd. en: Revista digital del INE / Otros temas

El INE participa en el proyecto europeo ESSnet on Big Data II

13-03-20

Se van a explorar estadísticas que se nutran de datos digitales Se van a explorar estadísticas que se nutran de datos digitales

El Departamento de Metodología y Desarrollo de la Producción Estadística del Instituto Nacional de Estadística (INE) participó, como coordinador del paquete de trabajo de datos de telefonía móvil y como integrante del paquete de trabajo de metodología y calidad, en la reunión del proyecto europeo ESSnet on Big Data II que tuvo lugar los días 11 y 12 de marzo de 2020.

Este proyecto, que tiene como objetivo la incorporación de nuevas fuentes de datos digitales a la producción de estadísticas oficiales en el Sistema Estadístico Europeo (SEE), está integrado por 28 instituciones europeas de 23 países diferentes y articulado en tres grupos de paquetes de trabajo. Todos los detalles del mismo pueden consultarse en https://webgate.ec.europa.eu/fpfis/mwikis/essnetbigdata/ index.php/Main_Page.

Nueva arquitectura de producción

El primer grupo de paquetes de trabajo del ESSnet on Big Data II está centrado en la implementación en producción de fuentes de datos digitales con acceso ya analizados, así como en la propuesta de una nueva arquitectura de producción llamada BREAL (Big Data Reference Architecture and Layers), que va más allá del modelo GSBPM para datos de encuestas y administrativos.

En este sentido, existen paquetes de trabajo para los anuncios en línea de vacantes de empleo (Online Job Vacancies), para la extracción de características de empresas de sus páginas web (Entreprise Characteristics), para el uso de contadores inteligentes de energía (Smart Energy) y para el seguimiento marítimo de navíos (Tracking Ships). Todos ellos completados bajo el paquete dedicado a los procesos de producción y la arquitectura (Process and Architecture).

Estudios piloto

El segundo grupo de paquetes de trabajo desarrolla estudios piloto sobre fuentes de datos digitales cuyo acceso es nuevo o aún no se ha conseguido, así como el análisis de la metodología estadística necesaria y las cuestiones de calidad derivadas.

Ello comprende paquetes de trabajo para datos de transacciones financieras (Financial Transaction Data), para datos de observación terrestre (Earth Observation), para datos de telefonía móvil (Mobile Network Data) y para la integración de diversas fuentes en la producción de estadísticas de turismo (Innovative Tourism Statistics).

Por su parte, el último grupo está dedicado de modo exploratorio a las Trusted Smart Statistics, es decir, a estadísticas que se nutren del creciente número de dispositivos digitales que producen datos reutilizables para la producción (Smart Farming, Smart Cities, Smart Devices o Smart Traffic). Este tipo de estadísticas se investigarán y desarrollarán con mayor profundidad en proyectos posteriores.

Metodología y calidad

Las nuevas fuentes de datos digitales suponen múltiples retos de diversa naturaleza. No solo el acceso supone un cambio profundo en el proceso de producción de las estadísticas oficiales, los métodos y la garantía de calidad de los productos finales deben ser revisados y actualizados para extraer rigurosamente la información de estos datos.

El paquete de trabajo sobre metodología y calidad tiene por objeto identificar y proponer unos primeros cimientos tanto para la nueva metodología estadística, como para la actualización de los indicadores de calidad.

En la reunión citada se continuarán las tareas y debates en torno a la tipificación de las nuevas fuentes de datos digitales, sus directrices y recomendaciones para el aseguramiento de calidad y los métodos estadísticos asociados.

Respecto a la tipificación de las fuentes de datos, se está construyendo una matriz para cada fuente donde se investigan la descripción, los retos, los tratamientos, la inversión y la hoja de ruta para diversos aspectos respecto al acceso, los metadatos y los datos propiamente dichos. Esta matriz permitirá al SEE disponer de una descripción pormenorizada de múltiples aspectos de las diversas fuentes de datos.

Asegurar la calidad

Para el aseguramiento de la calidad, se está tomando como punto de partida la descripción multidimensional de las fuentes tradicionales (encuestas) investigando sus limitaciones y adaptación a los nuevos datos.

El marco de producción genérico adaptado está proporcionado por el Reference Methodological Framework propuesto por Eurostat, que identifica tres fases: el acceso y extracción de los datos brutos de la fuente, el pre procesamiento de éstos para preparar datos estadísticos válidos para múltiples dominios estadísticos y el procesamiento de estos datos estadísticos para obtener productos de interés. Basándose en la experiencia acumulada en los diversos paquetes de trabajo, se proporcionan directrices de actuación para estas fases.

Para los métodos estadísticos con base en la experiencia acumulada en los diversos paquetes de trabajo se está llevando a cabo un compendio de nuevos procesos que van desde el procesamiento del lenguaje natural y tratamiento de imágenes a un marco de inferencia fuertemente basado en modelos estadísticos.

Todos estos métodos conllevan, además, un notable aumento del coste computacional del proceso estadístico con la consiguiente necesidad de nuevas herramientas informáticas.

Está previsto que el proyecto ESSnet on Big Data II finalice en diciembre de 2020.

 

NIPO: 096-20-015-8
ISSN: 2255-5625
© INE 2020