Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Negocios SosteniblesCaribbean Development Trends¿Y si hablamos de igualdad?Puntos sobre la iIdeaçãoSeguridad CiudadanaSostenibilidadFactor TrabajoImpactoEnfoque EducaciónGobernarteKreatopolisPrimeros PasosCiudades SosteniblesEnergía para el FuturoGente SaludableMás Allá de las FronterasBeyond BordersIdeas MatterIdeas que CuentanAbierto al PúblicoMoviliblogVolvamos a la fuente Gestión fiscalInicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Abierto al Público

  • INICIO
    • Sobre este blog
    • Guía editorial
    • Datos abiertos
    • Código abierto
    • Código para el desarrollo
  • CATEGORÍAS
    • Datos Abiertos
    • Código Abierto
    • Gestión del Conocimiento
    • Aprendizaje Abierto
    • Sistemas Abiertos
  • Autores
  • Español

Los archivos pdf: a veces, los queremos; a veces, los odiamos

abril 3, 2018 Por Daniela Collaguazo | Karen Mokate | Deja un comentario


El Formato de Documento Portátil, mejor conocido por sus siglas en inglés como “PDF”, es un formato abierto y estandarizado para mostrar y compartir documentos electrónicos. Una de las ventajas del PDF es que permite preservar toda la información del archivo original, incluyendo imágenes, texto, gráficos, hojas de cálculo y demás. Adicionalmente, este tipo de archivo puede ser consumido, independientemente de la plataforma o sistema operativo, permitiendo así, su fácil acceso.  Por estas características, nos hemos beneficiado mucho del formato y los hemos llegado a querer.

No obstante, cuando hablamos de la apertura de conocimiento y datos, este formato puede presentar grandes obstáculos durante la extracción automatizada de su contenido. Hay muchos datos, imágenes y texto en formatos pdf que no pueden ser fácilmente trabajados con nuevas tecnologías de inteligencia artificial, y así el formato está generando frustraciones.  En este artículo, expondremos tres retos que se deben tomar en cuenta a la hora de emprender un proyecto de extracción y análisis automatizados de datos y texto, contenidos en archivos PDF. También comentaremos algunas soluciones que han surgido para abordar estos retos; quizá brinden esperanza para superar las frustraciones y re-establecer nuestro cariño a los pdf.

1 Reto 1: Identificar patrones en un corpus heterogéneo 

El formato PDF fue pensado inicialmente para ser consumido por un ser humano y no por una computadora, lo que justifica la ausencia de un estándar de estilo, jerarquización o enmarcación de contenido. Esto, diferencia el pdf de otros formatos como los archivos HTML que sí fueron concebidos para ser consumidos por un navegador (una máquina). Y es precisamente este libre albedrío en la creación de los PDFs, lo que constituye un reto para la máquina al momento de querer identificar patrones sobre todo en un corpus de documentos muy diferentes entre sí.

En la actualidad, una de las herramientas más conocidas para la extracción de información de documentos PDF es la librería de Python PDFMiner. Esta herramienta se enfoca en la extracción y análisis exclusivamente de texto. Ofrece funcionalidades como reconocimiento de tamaño de texto, que puede servir para jerarquizar contenido y así diferenciar títulos y subtítulos del resto del contenido. Otra ventaja de esta librería es que permite extraer la tabla de contenidos y transformar un archivo de PDF a HTML. Sin embargo, cuando el tamaño de la tipografía difiere de tal manera entre los documentos, encontrar un patrón para poder determinar una jerarquía común al corpus, se vuelve una tarea imposible.

2 Reto 2: Extraer datos y texto contenidos en imágenes dentro de archivos pdf

Como ya habíamos mencionado, una de las ventajas del PDF es que puede almacenar todo tipo de contenido en un mismo archivo. El reto en este sentido surge cuando se requiere extraer datos y texto de documentos escaneados (imágenes). Para ello deberemos recurrir a una tecnología que permita traducir estas imágenes a los datos o texto que necesitamos. Este tipo de tecnología se llama Reconocimiento Óptico de Caracteres u OCR por sus siglas en inglés. Existen herramientas que prometen ayudar a superar esta dificultad, aunque seguramente con cierto margen de error que dependerá, por ejemplo, de la calidad de la imagen escaneada. Entre las más famosas está Tesseract, un proyecto de Google Open Source que se utiliza para detección de texto en dispositivos móviles, videos y en el detector de correo no deseado de Gmail. Para los amantes de Python también se encuentra a disposición la librería pypdfocr. 

3 Reto 3: Extraer contenido tabular y vinculado

Otro reto importante que debemos considerar durante la extracción de información de PDFs, es el contenido vinculado. En el caso de querer extraer información tabular, herramientas abiertas como Tabula nos ayudan en el proceso y sin embargo en ciertos casos puede no funcionar como esperamos. Supongamos que tenemos una tabla con dos columnas A y B. Supongamos ahora que vinculadas a la celda A1 están tres celdas de la columna B y que solamente B4 está vinculada A2, tal como se muestra en la imagen abajo:

Aunque para un ser humano es sencillo determinar que B1, B2 y B3 corresponden a A1, no ocurre de la misma manera con una computadora. El mismo problema de asociación ocurre con hipervínculos, pies de página, anexos, etc.

Cabe destacar que, aunque este formato presenta algunos retos importantes para la extracción automatizada de contenido, también es un formato que en la actualidad es extensamente utilizado. Por esta razón, es difícil decidir a priori si este tipo de archivos deberán ser descartados o no como fuente de datos en proyectos de extracción y análisis automatizadas de información. Esto ocurre sobre todo en los casos en que lamentablemente no existen muchas más fuentes alternativas de información para hacer un proyecto viable. También se deberá analizar la magnitud en la que estos retos están presentes en nuestros datos y del costo que su limpieza manual genere a nuestro proyecto. Finalmente se deberá tomar en cuenta la calidad de contenido del documento. Muchas veces, no merece la pena trabajar en la limpieza de contenido que está catalogado como irrelevante.

 

Ahora, tú cuéntanos, ¿qué frustraciones has experimentado cuando intentas extraer conocimiento de un PDF de manera automatizada?  Y ¿has encontrado manera de superarlas?

Por Karen Mokate, Jefa de la División de Gestión de Conocimiento y Daniela Collaguazo del Sector de Conocimiento y Aprendizaje 

 


Archivado Bajo:Datos Abiertos Etiquetado con:Análisis de texto Estructura de datos Inteligencia Artificial Procesamiento del Lenguaje Natural

Daniela Collaguazo

Daniela Collaguazo

Nacida en Quito, Ecuador en abril de 1984. Daniela culminó sus estudios de pre-grado en la Universidad San Francisco de Quito. Posteriormente, vivió 3 años en Alemania, en donde cursó su maestría en Gestión de la Tecnología e Innovación en la Universidad Técnica de Brandenburgo Cottbus-Senftenberg. Al culminar sus estudios, Daniela enseñó Tecnologías Web en la Facultad de Arquitectura Diseño y Artes en la Pontificia Universidad Católica del Ecuador. Actualmente, se encuentra colaborando con el BID como consultora en proyectos relacionados con aprendizaje automático y procesamiento del lenguaje natural. Es una apasionada del deporte y ha participado en varias competencias en su país natal, entre ellas una de aguas abiertas y los dos primeros triatlones de media distancia.

Karen Mokate

Karen Mokate

Karen Mokate es actualmente Jefa de la División de Gestión del Conocimiento, en el Sector de Conocimiento y Aprendizaje del Banco Interamericano de Desarrollo (BID). En esta función, Karen coordina los esfuerzos para promover el conocimiento abierto, no sólo para abrir el conocimiento y los datos del BID, sino también para promover estándares de apertura en América Latina y el Caribe. Ella coordina los esfuerzos relacionados con la captura y el intercambio de aprendizaje de los proyectos financiados por el BID y la diseminación de los productos de conocimiento del Banco. Anteriormente, Karen trabajó con el Instituto Interamericano para el Desarrollo Económico y Social (INDES), el instituto de formación del BID, en el fortalecimiento de capacidades de los funcionarios públicos de América Latina y el Caribe en los temas relacionados con la gestión basada en resultados, así como el seguimiento y la evaluación de programas y proyectos sociales. Antes de ingresar al BID, Karen se desempeñó en la Facultad de Economía de la Universidad de los Andes en Bogotá, Colombia. Allí, coordinó un programa regional para la formación de funcionarios públicos en análisis financiero y análisis de costo-beneficio. Karen cuenta con un doctorado en Economía de la Universidad de Illinois en Urbana-Champaign. Ha publicado varios libros, entre ellos dos sobre evaluación de proyectos y varios documentos relacionados con monitoreo y evaluación.

Reader Interactions

Deja un comentario Cancelar respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Primary Sidebar

Sobre este blog

El conocimiento abierto se define como conocimiento accesible, libre de uso, y gratuito a su usuario. Este concepto es parte de un movimiento que busca generar soluciones para el bien público de manera colaborativa. En “Abierto al Público” exploramos el uso del conocimiento abierto a través de los datos, el código y otros medios.

Buscar

Explorar temas

#CiudadanosInteligentes #CiudadesColaborativas #ConDatos #ConocimientoAbierto #eLearning #ExpediciónDeCódigoBID #ExpediciónDeDatos #Ideaton #Mapaton #ODS #OpenDataDay Acceso Abierto Acceso a la información Acceso digital Análisis de datos Análisis de texto Aprendizaje Big Data Blockchain Ciencia abierta Colaboración Colaboración abierta Crowdsourcing Código para el Desarrollo Datos Abiertos Economía naranja Emprendedores Gobierno Abierto Hackatones Innovación Innovación Abierta Inteligencia Artificial IODC La red Lecciones Aprendidas MOOCs Números para el Desarrollo Plataformas participativas Premio Nobel Procesamiento del Lenguaje Natural software libre Startups Transparencia Visualización de datos Zika

Suscripción

Publicaciones similares

  • Conoce SmartReader, nuestra herramienta de análisis de texto
  • La inteligencia artificial al servicio de las políticas públicas urbanas
  • ¿Qué es el Procesamiento de Lenguaje Natural y cómo ponerlo en práctica con recursos abiertos?
  • El Fotomapping: innovación en el procesamiento de imágenes
  • ¿Cómo se compara un iceberg al funcionamiento de la Inteligencia Artificial?

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

Blogs escritos por empleados del BID:

Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


Blogs escritos por autores externos:

Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



Política de privacidad

Banco Interamericano de Desarrollo

Aviso Legal

Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

facebook
twitter
youtube