Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Abierto al públicoBeyond BordersCaribbean Development TrendsCiudades SosteniblesEnergía para el FuturoEnfoque EducaciónFactor TrabajoGente SaludableGestión fiscalGobernarteIdeas MatterIdeas que CuentanIdeaçãoImpactoIndustrias CreativasLa Maleta AbiertaMoviliblogMás Allá de las FronterasNegocios SosteniblesPrimeros PasosPuntos sobre la iSeguridad CiudadanaSostenibilidadVolvamos a la fuente¿Y si hablamos de igualdad?Inicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Abierto al público

  • INICIO
    • ¿Qué es el Conocimiento Abierto?
    • Sobre este blog
    • ¿Cómo suscribirse?
    • Pautas editoriales
  • CATEGORÍAS
    • Aprendizaje abierto
    • Código abierto
    • Datos abiertos
    • Gestión del conocimiento
    • Sistemas abiertos
  • AUTORES
  • Español

Los archivos pdf: a veces, los queremos; a veces, los odiamos

April 3, 2018 por Daniela Collaguazo - Karen Mokate Deja un comentario


El Formato de Documento Portátil, mejor conocido por sus siglas en inglés como “PDF”, es un formato abierto y estandarizado para mostrar y compartir documentos electrónicos. Una de las ventajas del PDF es que permite preservar toda la información del archivo original, incluyendo imágenes, texto, gráficos, hojas de cálculo y demás. Adicionalmente, este tipo de archivo puede ser consumido, independientemente de la plataforma o sistema operativo, permitiendo así, su fácil acceso.  Por estas características, nos hemos beneficiado mucho del formato y los hemos llegado a querer.

No obstante, cuando hablamos de la apertura de conocimiento y datos, este formato puede presentar grandes obstáculos durante la extracción automatizada de su contenido. Hay muchos datos, imágenes y texto en formatos pdf que no pueden ser fácilmente trabajados con nuevas tecnologías de inteligencia artificial, y así el formato está generando frustraciones.  En este artículo, expondremos tres retos que se deben tomar en cuenta a la hora de emprender un proyecto de extracción y análisis automatizados de datos y texto, contenidos en archivos PDF. También comentaremos algunas soluciones que han surgido para abordar estos retos; quizá brinden esperanza para superar las frustraciones y re-establecer nuestro cariño a los pdf.

1 Reto 1: Identificar patrones en un corpus heterogéneo 

El formato PDF fue pensado inicialmente para ser consumido por un ser humano y no por una computadora, lo que justifica la ausencia de un estándar de estilo, jerarquización o enmarcación de contenido. Esto, diferencia el pdf de otros formatos como los archivos HTML que sí fueron concebidos para ser consumidos por un navegador (una máquina). Y es precisamente este libre albedrío en la creación de los PDFs, lo que constituye un reto para la máquina al momento de querer identificar patrones sobre todo en un corpus de documentos muy diferentes entre sí.

En la actualidad, una de las herramientas más conocidas para la extracción de información de documentos PDF es la librería de Python PDFMiner. Esta herramienta se enfoca en la extracción y análisis exclusivamente de texto. Ofrece funcionalidades como reconocimiento de tamaño de texto, que puede servir para jerarquizar contenido y así diferenciar títulos y subtítulos del resto del contenido. Otra ventaja de esta librería es que permite extraer la tabla de contenidos y transformar un archivo de PDF a HTML. Sin embargo, cuando el tamaño de la tipografía difiere de tal manera entre los documentos, encontrar un patrón para poder determinar una jerarquía común al corpus, se vuelve una tarea imposible.

2 Reto 2: Extraer datos y texto contenidos en imágenes dentro de archivos pdf

Como ya habíamos mencionado, una de las ventajas del PDF es que puede almacenar todo tipo de contenido en un mismo archivo. El reto en este sentido surge cuando se requiere extraer datos y texto de documentos escaneados (imágenes). Para ello deberemos recurrir a una tecnología que permita traducir estas imágenes a los datos o texto que necesitamos. Este tipo de tecnología se llama Reconocimiento Óptico de Caracteres u OCR por sus siglas en inglés. Existen herramientas que prometen ayudar a superar esta dificultad, aunque seguramente con cierto margen de error que dependerá, por ejemplo, de la calidad de la imagen escaneada. Entre las más famosas está Tesseract, un proyecto de Google Open Source que se utiliza para detección de texto en dispositivos móviles, videos y en el detector de correo no deseado de Gmail. Para los amantes de Python también se encuentra a disposición la librería pypdfocr. 

3 Reto 3: Extraer contenido tabular y vinculado

Otro reto importante que debemos considerar durante la extracción de información de PDFs, es el contenido vinculado. En el caso de querer extraer información tabular, herramientas abiertas como Tabula nos ayudan en el proceso y sin embargo en ciertos casos puede no funcionar como esperamos. Supongamos que tenemos una tabla con dos columnas A y B. Supongamos ahora que vinculadas a la celda A1 están tres celdas de la columna B y que solamente B4 está vinculada A2, tal como se muestra en la imagen abajo:

Aunque para un ser humano es sencillo determinar que B1, B2 y B3 corresponden a A1, no ocurre de la misma manera con una computadora. El mismo problema de asociación ocurre con hipervínculos, pies de página, anexos, etc.

Cabe destacar que, aunque este formato presenta algunos retos importantes para la extracción automatizada de contenido, también es un formato que en la actualidad es extensamente utilizado. Por esta razón, es difícil decidir a priori si este tipo de archivos deberán ser descartados o no como fuente de datos en proyectos de extracción y análisis automatizadas de información. Esto ocurre sobre todo en los casos en que lamentablemente no existen muchas más fuentes alternativas de información para hacer un proyecto viable. También se deberá analizar la magnitud en la que estos retos están presentes en nuestros datos y del costo que su limpieza manual genere a nuestro proyecto. Finalmente se deberá tomar en cuenta la calidad de contenido del documento. Muchas veces, no merece la pena trabajar en la limpieza de contenido que está catalogado como irrelevante.

 

Ahora, tú cuéntanos, ¿qué frustraciones has experimentado cuando intentas extraer conocimiento de un PDF de manera automatizada?  Y ¿has encontrado manera de superarlas?

Por Karen Mokate, Jefa de la División de Gestión de Conocimiento y Daniela Collaguazo del Sector de Conocimiento y Aprendizaje 

 


Archivado Bajo:Datos abiertos Etiquetado con:Análisis de datos, Análisis de texto, Paso a paso

Daniela Collaguazo

Nacida en Quito, Ecuador en abril de 1984. Daniela culminó sus estudios de pregrado en la Universidad San Francisco de Quito. Posteriormente, vivió 3 años en Alemania, en donde cursó su maestría en Gestión de la Tecnología e Innovación en la Universidad Técnica de Brandenburgo Cottbus-Senftenberg. Al culminar sus estudios, Daniela enseñó Tecnologías Web en la Facultad de Arquitectura Diseño y Artes en la Pontificia Universidad Católica del Ecuador. Actualmente, se encuentra colaborando con el BID como consultora en proyectos relacionados con aprendizaje automático y procesamiento del lenguaje natural. Es una apasionada del deporte y ha participado en varias competencias en su país natal, entre ellas una de aguas abiertas y los dos primeros triatlones de media distancia.

Karen Mokate

Karen Mokate es actualmente Jefa de la División de Gestión del Conocimiento, en el Sector de Conocimiento y Aprendizaje del Banco Interamericano de Desarrollo (BID). En esta función, Karen coordina los esfuerzos para promover el conocimiento abierto, no sólo para abrir el conocimiento y los datos del BID, sino también para promover estándares de apertura en América Latina y el Caribe. Ella coordina los esfuerzos relacionados con la captura y el intercambio de aprendizaje de los proyectos financiados por el BID y la diseminación de los productos de conocimiento del Banco. Anteriormente, Karen trabajó con el Instituto Interamericano para el Desarrollo Económico y Social (INDES), el instituto de formación del BID, en el fortalecimiento de capacidades de los funcionarios públicos de América Latina y el Caribe en los temas relacionados con la gestión basada en resultados, así como el seguimiento y la evaluación de programas y proyectos sociales. Antes de ingresar al BID, Karen se desempeñó en la Facultad de Economía de la Universidad de los Andes en Bogotá, Colombia. Allí, coordinó un programa regional para la formación de funcionarios públicos en análisis financiero y análisis de costo-beneficio. Karen cuenta con un doctorado en Economía de la Universidad de Illinois en Urbana-Champaign. Ha publicado varios libros, entre ellos dos sobre evaluación de proyectos y varios documentos relacionados con monitoreo y evaluación.

Reader Interactions

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Primary Sidebar

SÍGUENOS

Suscríbete

Sobre este blog

Podemos describir al conocimiento abierto como aquel conocimiento que puede ser usado, reutilizado y compartido sin restricciones, ya que cuenta con las características tanto legales como tecnológicas para ser accedido por cualquier persona, en cualquier momento y en cualquier lugar del mundo.

En el blog 'Abierto al Público' exploramos los temas, recursos, iniciativas e impacto de la apertura de conocimiento a nivel global, prestando especial atención a lo que sucede en la región de América Latina y el Caribe. También abordamos los esfuerzos que lleva a cabo el Banco Interamericano de Desarrollo por apoyar la diseminación del conocimiento abierto y accionable que constantemente genera esta organización.

Buscar

Temas

AcademiaBID Acceso abierto Acceso a la información Análisis de datos Análisis de texto Big Data Cambio climático Ciencia Abierta Conceptos clave Conocimiento Abierto Coronavirus Creative Commons Credenciales digitales Crowdsourcing Código para el Desarrollo Datos geoespaciales Diseño instruccional El Rincón de Publicación Emprendimiento Eventos Gobierno abierto Género y diversidad Hackatones Inclusión digital Innovación abierta Inteligencia Artificial Lecciones aprendidas Metodologías MOOC Más leídos Números para el Desarrollo Objetivos de Desarrollo Sostenible Participación ciudadana Paso a paso Periodismo de datos Procesamiento del Lenguaje Natural Productos de conocimiento Protección de datos Proyectos de desarrollo Recursos accionables Solidaridad Taxonomía Trabajo en equipo Visualización de datos

Publicaciones similares

  • ¡Libera los datos encerrados en archivos PDF!
  • Seis recomendaciones para contenido digital más accesible
  • ¿Cómo sistematizar las lecciones aprendidas de los proyectos de desarrollo?
  • 4 pasos para crear tu propia visualización de datos en menos de 15 minutos
  • Conoce SmartReader, nuestra herramienta de análisis de texto

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

    Blogs escritos por empleados del BID:

    Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


    Blogs escritos por autores externos:

    Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

    Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

    Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



    Política de privacidad

    Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

    Banco Interamericano de Desarrollo

    Aviso Legal

    Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

    facebook
    twitter
    youtube
    En este sitio web se utilizan cookies para optimizar la funcionalidad y brindar la mejor experiencia posible. Si continúa visitando otras páginas, se instalarán cookies en su navegador.
    Para obtener más información al respecto, haga clic aquí.
    x
    Manage consent

    Privacy Overview

    This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
    Necessary
    Always Enabled
    Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
    Non-necessary
    Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
    SAVE & ACCEPT