¿Alguna vez te has animado por haber encontrados datos super interesantes en una publicación “abierta” y luego encuentras que no los puedes descargar, porque están en formato PDF? Aunque esto no significa que entonces el análisis de dichos datos sea imposible, sí supone que la tarea se haga más tediosa. Dependiendo de la cantidad de datos que quieras analizar, tenerlos que copiar manualmente puede volverse una traba para tu investigación. Claramente el formato PDF limita la naturaleza “abierta” de los datos.
Con esto en mente, un grupo de periodistas creó Tabula, una herramienta de código abierto que permite extraer datos de tablas que se encuentren en formato PDF y convertirlos a un archivo CSV. Así, los datos de publicaciones abiertas podrán ser manipulados, analizados y visualizados.
Esta herramienta se encuentra publicada en nuestro repositorio Código para el Desarrollo, desde donde puedes acceder a descargarla haciendo clic en “pruébalo ahora”. También puedes adaptar el código para que la herramienta se acomode a tu necesidad.
En este post, te contaremos cómo, sin tener que saber de código o programación, puedes utilizar Tabula a tu favor para que los PDFs no supongan una traba a tu trabajo:
1 Instala la herramienta y comienza a liberar tus datos encerrados en archivos PDF
Para este paso, si tu sistema operativo es Microsoft o Linux necesitarás contar con una versión de Java instalada en tu computador (puedes descargar Java aquí). Una vez cuentes con esto, ¡ya puedes descargar el zip de Tabula! Para esto, sigue este enlace.
Dato importante: Tabula sólo funciona con archivos PDF basados en texto, si el archivo es escaneado la herramienta no podrá reconocer las tablas. ¿Cómo saber si mi PDF está basando en texto? Si Puedes seleccionar y copiar el contenido de tu archivo, tu PDF funcionará con Tabula.
2 Importa tu archivo PDF
Una vez hayas descargado el zip de la herramienta, inmediatamente se abrirá Tabula en tu buscador con el link http://127.0.0.1:8080/, si no se te abre puedes directamente copiarlo y pegarlo. Una vez en el sitio, puedes explorar tu computador para importar el archivo a la herramienta.
A modo de ejemplo, hemos subido a Tabula un informe abierto sobre la ejecución presupuestal de la localidad de Usaquén en Bogotá, Colombia para el año 2013. Es un buen ejemplo de datos gubernamentales abiertos que demuestran un compromiso del gobierno local con el acceso a la información. Sin embargo, por encontrarse en el formato PDF, no facilitan la reutilización de los datos, por ende, todavía no están realizando todo su potencial como datos abiertos. Pero con la ayuda de esta herramienta, podemos tomar estos datos abiertos ¡y liberarlos más!
Tal y como explican los creadores de Tabula, por motivos de seguridad del usuario, el procesamiento de Tabula ocurre localmente en cada computador.
3 Selecciona las tablas de las que desees extraer datos
Una vez importado el o los archivos PDF, debes seleccionar cuáles son las tablas que quieres obtener en un archivo CSV. La misma herramienta tiene una función para auto detectarlas, por lo que puedes verificar si la selección se hizo correctamente y elegir si quieres exportarlas todas o sólo algunas.
4 Asegúrate de que tus datos tengan el formato correcto
Una vez hayas seleccionado toda la data que desees descargar, utiliza el botón de “preview and export extracted data” para poder ver cómo quedará el producto final y asegurarte de que las columnas y filas se vean correctamente.
La herramienta tiene dos opciones para visualizar los datos extraídos, stream y lattice, dependiendo de cómo estén ordenados los datos en el formato original, Tabula tiene dos maneras de reconocer la separación de celdas. Juega entre ellas para que tus datos se visualicen de manera correcta. Una vez tengas lo que quieres, ¡procede a exportar tus datos!
5 Exporta, limpia y juega con tus datos
Ya tienes tus datos en formato CSV y puedes comenzar a explorarlos. En nuestro caso, el archivo original que utilizamos no tenía cada dato en una celda específica, por lo que al descargarlos, igualmente tuvimos que explorar con diferentes expresiones regulares y otros métodos más manuales para poder ordenar los datos.
Esperamos que esta herramienta te ayude a jugar con datos que antes creías inaccesibles.
¿Ya probaste Tabula? ¡Cuéntanos en los comentarios!
Este blog post fue escrito por Arianna Orozco, editora del blog “Abierto al Público” y consultora del Sector de Conocimiento y Aprendizaje; en conjunto con Manuel Aristarán, creador de Tabula.
Carlos C Dice
También se puede usar NITRO PDF