En las últimas semanas, varios expertos en datos abiertos han coincidido en señalar que la baja calidad de muchos datos que se publican en los portales de datos está afectando negativamente a los esfuerzos por fomentar los datos abiertos. Los problemas de calidad de los datos más frecuentes son la inconsistencia de las series temporales (en ocasiones faltan datos de algún año), una codificación inconsistente (que hace compleja la explotación de los datos), y la inclusión de muchas bases de datos con pocas líneas de información.
Abrir datos (Open Data) no es solo hacer públicos los datos, puesto que en su gran mayoría los datos ya están publicados de varias formas en las páginas web de los Institutos Nacionales de Estadística y otras páginas web oficiales. El gran desafío consiste en publicar datos sistematizados que sean accesibles también para las aplicaciones informáticas que reutilicen la información y permitan generar nuevos usos para esa información. Si la información no es de calidad y no se puede usar, todo este esfuerzo habrá sido en vano.
Organismos certifican la calidad de las bases de datos
Para solucionar esta cuestión, ya hay varias organizaciones que trabajan por certificar la calidad de las bases de datos. El Open Data Institute (Reino Unido), una organización dirigida por Tim Berners-Lee y Nigel Shadbolt, que está poniendo muchos esfuerzos por fomentar unos datos de mejor calidad. En Alemania, el Franuhofer Fokus que promueve el avance de los datos abiertos, también tiene un área de trabajo importante en lo que se refiere a la limpieza y estandarización de los datos abiertos.
Hay herramientas que permiten verificar la consistencia de las bases de datos
Por otro lado, comienzan a surgir varias aplicaciones web que permiten verificar la calidad de las bases de datos antes de subirlas al portal de datos abiertos. Open Source Data Quality and Profiling es una aplicación libre que permite analizar la calidad de nuestras bases de datos mediante varios procesos. Talend ofrece una versión gratuita y otra de pago, y Data Cleaner ofrece un servicio de pago para limpiar y estandarizar bases de datos. Uno de los más utilizados por los expertos es Open Refine, que originalmente fue desarrollado por Google.
Desarrollar marcos regulatorios puede ayudar a garantizar la consistencia a distintos niveles
En algunos países, los estándares para las bases de datos están definidos en las legislaciones nacionales o supranacionales, como ocurre en los países europeos. Definir un estándar de publicación de datos que tenga un rango jerárquico es importante para que luego puedan integrarse las bases de datos y generar un universo de datos abiertos pero esto no siempre evita que se publiquen bases de datos que contengan poca información o escasamente relevante.
Los expertos del ODI señalan que muchos de los errores que se producen no tienen que ver tanto con los marcos regulatorios, sino con las decisiones de los administradores de los portales de datos abiertos, y por lo tanto el problema es, una vez más, cultural y no tecnológico.
Por eso conviene realizar una analogía entre el proceso de publicación de bases de datos y de artículos científicos. Quizás sería conveniente pensar en un proceso de revisión por pares u otro tipo de metodologías, como la valoración de los usuarios, para certificar la calidad y pertinencia de los datos. Estas herramientas no suponen un gran desafío tecnológico y ya han demostrado su utilidad para moderar, por ejemplo, los comentarios en los artículos de periódico y blogs, o para valorar la calidad de los productos y vendedores en tiendas online como Amazon o Ebay.
Aun así, en el caso de que la solución tecnológica no fuera posible o fuera demasiado costosa, deberían existir otros mecanismos de control de calidad como ocurre en la literatura científica. Certificar la calidad y la pertinencia de las bases de datos, usando la opinión de los usuarios o de los expertos es importante si queremos que los datos abiertos produzcan el impacto que esperamos. Si vamos a basar nuestras decisiones en estos datos, es mejor que sean fiables.
Diego Dice
Es un buena idea tratar los conjuntos de datos como publicaciones científicas pero pienso que una alternativa viable es mejorar y complementar la metadata asociada a los conjuntos de datos que se publican, con esta información de antemano se optimiza el análisis. Por ejemplo, que los comentarios de los usuarios de esos datos se agreguen a la metadata y en forma colaborativa que permita votar para subir o bajar un comentario o indicación acerca de los datos (así como en stackoverflow) permite generar en el tiempo metadata y conocimiento respecto a los datos, enriqueciendo el conjunto de datos en a medida que es utilizado.
Open Knowledge (admin) Dice
Muchas gracias Diego. Muy interesante tu propuesta. Estoy totalmente de acuerdo y, de hecho, esto es algo que he visto ya en algún portal de datos abiertos, como el de México (datos.gob.mx). De esa experiencia también me parece relevante añadir que es importante que los comentarios estén moderados y sean constructivos. Muchos portales como datos.gob.mx están empezando a incluir el plugin de Disqus (https://disqus.com/), que ayuda a generar discusiones más constructivas. Pero lo más relevante en el caso de datos.gob.mx es que los administradores del portal responden a los comentarios.
Otra herramienta que me parece muy útil es la que utiliza el Gobierno de Colonia (Alemania). Ellos permiten a los usuarios dar un “rating” a cada conjunto de datos (de 1 a 5 estrellas). Esto me parece otro mecanismo interesante para evaluar la calidad de las bases de datos publicadas. Está todo en alemán, pero échale un vistazo a esto: http://www.offenedaten-koeln.de/dataset/vornamen
¡Saludos y gracias por el comentario!
Nelson Dice
Hola
Hay algún sistema en línea, gratuito y seguro para que una institución pública lleve sus bases de datos?
Open Knowledge (admin) Dice
Hola Nelson,
Sí. Hay varios. CKAN es el más conocido. Es una aplicación en python que utilizan los gobiernos de UK, USA y México por ejemplo. DKAN está programado en Drupal, también es Open Source y ha sido utilizado ya por varias organizaciones en el mundo. Junar es una plataforma online que pronto lanzará una versión Open Source. CKAN es una solución que puede integrarse en WordPress u otro CMS para mejorar la manera en que se muestran los resultados, y DKAN ofrece un “todo en uno”, que puede personalizarse con bastante facilidad.
La Presidencia de México, el Gobierno de EEUU y otros han subido el código ya desarrollado en Github y, por lo tanto, sería posible replicar lo que ellos han hecho. Te recomiendo que busques el código de datos.gob.mx o data.gov, ambas soluciones son CKAN + WordPress
Saludos,
Antonio