Por Rodolfo Wilhelmy, Director de Datos Abiertos en la Coordinación de Estrategia Digital Nacional Presidencia de la República de México
Utilizar datos de gobierno es frustrante; lo digo por experiencia propia.
Empezamos navegando un laberinto de portales y menús crípticos para llegar a un listado de ligas a conjuntos de datos que apenas funcionan y cuentan con descripciones vagas.
Después de una larga descarga de cientos de MB y algunos GB nos damos cuenta que el archivo sólo abre bajo cierto sistema operativo o con cierto software propietario. Aún pasando estas barreras, seguro nos encontraremos con datos inconsistentes y sin estructurar que complicarán el trabajo a cualquier usuario.
Este escenario es común en las iniciativas de datos abiertos, a diferentes niveles, idiomas, y latitudes. Y es por esto que en la Iniciativa de Datos Abiertos de México nos propusimos definir principios básicos que sirvan de guía para abrir datos de calidad, es decir, datos en su mejor estado para ser aprovechados por la sociedad.
A continuación les presentamos 5 de estos principios:
1 Genera y publica un plan de apertura
Donde reflejes la atención a la demanda ciudadana por datos, generalmente identificable en solicitudes de acceso a la información en oficinas de transparencia, y puntos de interacción con el sector público, privado y social.
Además de la demanda ciudadana, otro punto de referencia es lo que denominamos “infraestructura de datos” que engloba datos de interés nacional que son elementales para el mejoramiento de política pública, el desarrollo económico y el fortalecimiento de la sociedad civil.
Una referencia práctica sobre qué encontrar en esta infraestructura son las categorías definidas por el Open Data Census en census.okfn.org
2 Exporta a formatos abiertos
La manera más clara, sencilla y universal de presentar datos es en formato tabular, particularmente CSV. Este formato es versátil y ligero; se puede usar en una hoja de cálculo o en una librería de algún lenguaje de programación.
Un CSV son simples registros con sus propiedades representadas por valores en columnas, como se ve en el siguiente ejemplo:
sitio, país, datasets datos.gob.mx, México, 200 data.gov.uk, Reino Unido, 19869 datos.gob.cl, Chile, 11803 Facilita el uso
Buena parte de nuestra audiencia tendrá preferencia por otros formatos y flujos de trabajo. Es por esto que recomendamos publicar también en formatos convenientes o comúnmente utilizados por grupos expertos o líderes en el área, sector o industria.
Por ejemplo, si el dataset contiene ubicaciones de restaurantes podríamos publicarlo en un formato geoespacial, como GeoJSON o inclusive Shapefile, facilitando así la creación de mapas o su incorporación a sistemas de información geoespacial.
Otro factor importante para el uso de datos es facilitar la descarga. Si se publican datos como archivos estáticos, es recomendable subirse a un Content Delivery Network, ya que acelera las descargas y desvía el tráfico de nuestros servidores. Si se publican datos constantemente se recomienda exponer los datos a través de un API o servicio web.
4 Documenta con detalle
Utilizar datos no debería ser confuso para los usuarios; es importante explicar claramente su origen, y de preferencia agregar referencias adicionales donde se defina a mayor detalle el proceso de generación y transformación de los datos.
Los diccionarios de datos son esenciales para esta tarea, por ejemplo: https://data.linz.govt.nz/layer/804-nz-property-titles.
En datos.gob.mx hacemos obligatorio el uso de DCAT como estándar de documentación (mínima) para los datos abiertos.
5 Publica en un catálogo
Por último, es importante hacer visible los datos en un portal de datos abiertos, o al menos en un catálogo estándar que permita buscar, encontrar y descargar los datos de la manera más directa y sencilla, sin restricciones de acceso y bajo licencias de libre uso.
En datos.gob.mx publicamos con términos LIBRE USO MX, una adaptación de CC-BY 4.0 que permite el uso de los datos con el único requisito de atribución a la fuente original.
Conclusiones
Esta guía no pretende ser una receta absoluta ni a detalle del proceso; sino la definición de principios mínimos para asegurar una publicación de datos abiertos de calidad.
Ni mucho menos una secuencia lineal finita. El proceso para abrir datos siempre será gradual e iterativo, en otras palabras, repite en ciclo estos pasos ad infinitum.
Para mayor información y detalle consulta la Guía de Datos Abiertos para México.
Alvaro Graves Dice
Uff, ojalá fuera tan simple como eso. En realidad el título de este artículo debiese ser “5 buenas prácticas para publicar datos abiertos”. En ningún caso esto maximiza el uso de los datos. Para que la gente use los datos, estos deben ser primero que nada interesantes o relevantes para ellos. Hay muchos casos en que se publican datos porque si, pero no han sido descargados nunca. Lo otro es que los datos sean de buena calidad; no estoy hablando en términos de formatos, sino que sean correctos. Tercero, es necesario transparentar el ciclo de vida de los datos. Por ejemplo, si me encuentro con un dato erróneo, ¿lo puedo reportar? ¿dónde? ¿cómo? ¿Alguien ya lo ha reportado antes? ¿Han habido otros errores? ¿Se han reportado y/o arreglado esos errores?
El tema de usar formatos abiertos, catálogos, etc. es el mínimo de “buena educación” en términos de apertura de datos, pero la gente los va a usar cuando realmente sean interesantes y se pueda confiar de que agregan valor y son actualizados regularmente.
Bolívar Morales Tobar Dice
Que importante es poder tener la información real para proyectar políticas publicas que mejoren las condiciones de vida de nuestras sociedades. Felicito por esta iniciativa que aportara de una manera amplia el compartir información de las diferentes bases de datos y sus visiones.