Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Abierto al públicoBeyond BordersCaribbean Development TrendsCiudades SosteniblesEnergía para el FuturoEnfoque EducaciónFactor TrabajoGente SaludableGestión fiscalGobernarteIdeas MatterIdeas que CuentanIdeaçãoImpactoIndustrias CreativasLa Maleta AbiertaMoviliblogMás Allá de las FronterasNegocios SosteniblesPrimeros PasosPuntos sobre la iSeguridad CiudadanaSostenibilidadVolvamos a la fuente¿Y si hablamos de igualdad?Inicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Abierto al público

  • INICIO
    • ¿Qué es el Conocimiento Abierto?
    • Sobre este blog
    • ¿Cómo suscribirse?
    • Pautas editoriales
  • CATEGORÍAS
    • Aprendizaje abierto
    • Código abierto
    • Datos abiertos
    • Gestión del conocimiento
    • Sistemas abiertos
  • AUTORES
  • Español

¡Libera los datos encerrados en archivos PDF!

February 8, 2018 por Arianna Orozco 1 Comentario


¿Alguna vez te has animado por haber encontrados datos super interesantes en una publicación “abierta” y luego encuentras que no los puedes descargar, porque están en formato PDF? Aunque esto no significa que entonces el análisis de dichos datos sea imposible, sí supone que la tarea  se haga más tediosa. Dependiendo de la cantidad de datos que quieras analizar, tenerlos que copiar manualmente puede volverse una traba para tu investigación. Claramente el formato PDF limita la naturaleza “abierta” de los datos.

Con esto en mente, un grupo de periodistas creó Tabula, una herramienta de código abierto que permite extraer datos de tablas que se encuentren en formato PDF y convertirlos a un archivo CSV. Así, los datos de publicaciones abiertas podrán ser manipulados, analizados y visualizados.

Esta herramienta se encuentra publicada en nuestro repositorio Código para el Desarrollo, desde donde puedes acceder a descargarla haciendo clic en “pruébalo ahora”. También puedes adaptar el código para que la herramienta se acomode a tu necesidad.

En este post, te contaremos cómo, sin tener que saber de código o programación, puedes utilizar Tabula a tu favor para que los PDFs no supongan una traba a tu trabajo:

1 Instala la herramienta y comienza a liberar tus datos encerrados en archivos PDF

Para este paso, si tu sistema operativo es Microsoft o Linux necesitarás contar con una versión de Java instalada en tu computador (puedes descargar Java aquí). Una vez cuentes con esto, ¡ya puedes descargar el zip de Tabula! Para esto, sigue este enlace.

Dato importante: Tabula sólo funciona con archivos PDF basados en texto, si el archivo es escaneado la herramienta no podrá reconocer las tablas. ¿Cómo saber si mi PDF está basando en texto? Si Puedes seleccionar y copiar el contenido de tu archivo, tu PDF funcionará con Tabula.

2 Importa tu archivo PDF

Una vez hayas descargado el zip de la herramienta, inmediatamente se abrirá Tabula en tu buscador con el link http://127.0.0.1:8080/, si no se te abre puedes directamente copiarlo y pegarlo. Una vez en el sitio, puedes explorar tu computador para importar el archivo a la herramienta.

A modo de ejemplo, hemos subido a Tabula un informe abierto sobre la ejecución presupuestal de la localidad de Usaquén en Bogotá, Colombia para el año 2013. Es un buen ejemplo de datos gubernamentales abiertos que demuestran un compromiso del gobierno local con el acceso a la información. Sin embargo, por encontrarse en el formato PDF, no facilitan la reutilización de los datos, por ende, todavía no están realizando todo su potencial como datos abiertos. Pero con la ayuda de esta herramienta, podemos tomar estos datos abiertos ¡y liberarlos más!

Tal y como explican los creadores de Tabula, por motivos de seguridad del usuario, el procesamiento de Tabula ocurre localmente en cada computador.

3 Selecciona las tablas de las que desees extraer datos

Una vez importado el o los archivos PDF, debes seleccionar cuáles son las tablas que quieres obtener en un archivo CSV. La misma herramienta tiene una función para auto detectarlas, por lo que puedes verificar si la selección se hizo correctamente y elegir si quieres exportarlas todas o sólo algunas.

4 Asegúrate de que tus datos tengan el formato correcto

Una vez hayas seleccionado toda la data que desees descargar, utiliza el botón de “preview and export extracted data” para poder ver cómo quedará el producto final y asegurarte de que las columnas y filas se vean correctamente.

La herramienta tiene dos opciones para visualizar los datos extraídos, stream y lattice, dependiendo de cómo estén ordenados los datos en el formato original, Tabula tiene dos maneras de reconocer la separación de celdas. Juega entre ellas para que tus datos se visualicen de manera correcta. Una vez tengas lo que quieres, ¡procede a exportar tus datos!

5 Exporta, limpia y juega con tus datos

Ya tienes tus datos en formato CSV y puedes comenzar a explorarlos. En nuestro caso, el archivo original que utilizamos no tenía cada dato en una celda específica, por lo que al descargarlos, igualmente tuvimos que explorar con diferentes expresiones regulares y otros métodos más manuales para poder ordenar los datos.

Esperamos que esta herramienta te ayude a jugar con datos que antes creías inaccesibles.

¿Ya probaste Tabula? ¡Cuéntanos en los comentarios!

Este blog post fue escrito por Arianna Orozco, editora del blog “Abierto al Público” y consultora del Sector de Conocimiento y Aprendizaje; en conjunto con Manuel Aristarán, creador de Tabula. 


Archivado Bajo:Código abierto Etiquetado con:Análisis de datos, Paso a paso

Arianna Orozco

Arianna Orozco fue editora de Abierto al Público desde el 2017 al 2018, y consultora para la División de Gestión de Conocimiento del Banco Interamericano de Desarrollo (BID) desde el 2016 al 2018. Es venezolana, licenciada en Relaciones Internacionales con enfoque en Resolución de Conflictos, Derechos Humanos y América Latina de la Universidad de Colorado, Boulder. Al terminar la universidad, Arianna viajó a Brasil para llevar a cabo una investigación sobre el rol de distintas disciplinas artísticas en el empoderamiento en los jóvenes y en el desarrollo de una comunidad. Apasionada por los Derechos Humanos, Arianna se mudó a Washington, DC para formar parte del equipo de Prensa y Comunicación de la Comisión Interamericana de Derechos Humanos así como de la Fundación para el Debido Proceso.

Reader Interactions

Comments

  1. Carlos C Dice

    February 28, 2018 at 12:21 pm

    También se puede usar NITRO PDF

    Reply

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Primary Sidebar

SÍGUENOS

Suscríbete

Sobre este blog

Podemos describir al conocimiento abierto como aquel conocimiento que puede ser usado, reutilizado y compartido sin restricciones, ya que cuenta con las características tanto legales como tecnológicas para ser accedido por cualquier persona, en cualquier momento y en cualquier lugar del mundo.

En el blog 'Abierto al Público' exploramos los temas, recursos, iniciativas e impacto de la apertura de conocimiento a nivel global, prestando especial atención a lo que sucede en la región de América Latina y el Caribe. También abordamos los esfuerzos que lleva a cabo el Banco Interamericano de Desarrollo por apoyar la diseminación del conocimiento abierto y accionable que constantemente genera esta organización.

Buscar

Temas

AcademiaBID Acceso abierto Acceso a la información Análisis de datos Análisis de texto Big Data Cambio climático Ciencia Abierta Conceptos clave Conocimiento Abierto Coronavirus Creative Commons Credenciales digitales Crowdsourcing Código para el Desarrollo Datos geoespaciales Diseño instruccional El Rincón de Publicación Emprendimiento Eventos Gobierno abierto Género y diversidad Hackatones Inclusión digital Innovación abierta Inteligencia Artificial Lecciones aprendidas Metodologías MOOC Más leídos Números para el Desarrollo Objetivos de Desarrollo Sostenible Participación ciudadana Paso a paso Periodismo de datos Procesamiento del Lenguaje Natural Productos de conocimiento Protección de datos Proyectos de desarrollo Recursos accionables Solidaridad Taxonomía Trabajo en equipo Visualización de datos

Publicaciones similares

  • 4 pasos para crear tu propia visualización de datos en menos de 15 minutos
  • Los archivos pdf: a veces, los queremos; a veces, los odiamos
  • Expertos en datos predicen ganador del Mundial de Brasil
  • Tres consejos para compartir tus bases de datos con éxito
  • 5 principios para maximizar el uso de los datos abiertos

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

    Blogs escritos por empleados del BID:

    Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


    Blogs escritos por autores externos:

    Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

    Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

    Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



    Política de privacidad

    Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

    Banco Interamericano de Desarrollo

    Aviso Legal

    Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

    facebook
    twitter
    youtube
    En este sitio web se utilizan cookies para optimizar la funcionalidad y brindar la mejor experiencia posible. Si continúa visitando otras páginas, se instalarán cookies en su navegador.
    Para obtener más información al respecto, haga clic aquí.
    x
    Manage consent

    Privacy Overview

    This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
    Necessary
    Always Enabled
    Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
    Non-necessary
    Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
    SAVE & ACCEPT