Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Abierto al públicoBeyond BordersCaribbean Development TrendsCiudades SosteniblesEnergía para el FuturoEnfoque EducaciónFactor TrabajoGente SaludableGestión fiscalGobernarteIdeas MatterIdeas que CuentanIdeaçãoImpactoIndustrias CreativasLa Maleta AbiertaMoviliblogMás Allá de las FronterasNegocios SosteniblesPrimeros PasosPuntos sobre la iSeguridad CiudadanaSostenibilidadVolvamos a la fuente¿Y si hablamos de igualdad?Inicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Abierto al público

  • INICIO
    • ¿Qué es el Conocimiento Abierto?
    • Sobre este blog
    • ¿Cómo suscribirse?
    • Pautas editoriales
  • CATEGORÍAS
    • Aprendizaje abierto
    • Código abierto
    • Datos abiertos
    • Gestión del conocimiento
    • Sistemas abiertos
  • AUTORES
  • Español

Cómo aplicamos la minería de texto para sistematizar los aprendizajes de proyectos de desarrollo

January 13, 2020 por Bertha Briceño - Lorena Corso Figueroa Deja un comentario


Un reto común en la captura de lecciones aprendidas es poder sintetizar su análisis. En este post, revisamos algunas de las técnicas de automatización que hacen uso de minería de texto, aprendizaje automático (machine learning) y de procesamiento de lenguaje natural que hemos explorado para lograrlo.

Clasificar las lecciones aprendidas registradas en los proyectos de desarrollo del BID es un proceso en el que hemos venido trabajando para buscar la mejor manera de sistematizar los aprendizajes provenientes de los documentos operacionales de la organización. Estos se encuentran documentados en formato PDF. Por lo que hemos explorado técnicas de automatización por medio de minería de texto, de aprendizaje automático y de procesamiento de lenguaje natural para lograr su análisis de manera más automática y eficiente.

Aunque cada día aumentan las posibilidades para procesar texto por la creación de nuevos paquetes de análisis, herramientas y técnicas de procesamiento de este tipo de datos, siempre es recomendable explorar algunas herramientas básicas para entender su funcionamiento, alcance y, sobre todo, conocer más a fondo cómo se comportan tus datos. En esta entrada, te contamos algunas tareas que hemos automatizado con herramientas de procesamiento de texto y esperamos que despierten tu curiosidad por explorar este campo.

Tareas complicadas hechas sencillas por algoritmos

  1. “Leer” o convertir texto

La extracción del texto que se encuentra en documentos PDF es el primer paso para iniciar el proceso de sistematización de aprendizajes que han sido documentados en informes “impresos”. Si se realizara manualmente, se necesitaría una gran cantidad de horas hombre por el elevado volumen de documentos que se debe examinar. Es posible realizar esta tarea con la ayuda de paquetes de herramientas para el tratamiento de documentos en este formato como pdftools o PyPDF2. Tabula es también una buena opción, especialmente para extraer de tablas y cuadros.

A continuación, te mostramos un ejemplo gráfico que ilustra el trabajo de estos algoritmos para que tengas una idea más clara de lo que se puede hacer al extraer texto:

  1. Buscar patrones o estructuras conocidas

Al tener un cuerpo de información no estructurada (texto, en este caso) que ha sido recuperado de múltiples informes que tienen la misma estructura de organización del contenido, es posible definir qué extracto específico de texto vamos a analizar, si hemos identificado un patrón de palabras establecidas. Por ejemplo, en un primer ejercicio de sistematización de lecciones aprendidas, buscamos todo el texto que se sitúa bajo los títulos “Lecciones aprendidas” o “Hallazgos y Recomendaciones” en cerca de 100 documentos en un tiempo menor a dos minutos. Imagina el tiempo que habría tomado hacer lo mismo de manera manual, abriendo cada documento PDF y buscando este título en todo el contenido.

En el caso de los aprendizajes del BID, ha sido necesario especificar todas las variaciones de idiomas para la búsqueda de esta estructura conocida, especificando los cuatro idiomas oficiales de la organización: español, portugués, inglés, y francés.

  1. Identificar palabras clave y analizar su sentimiento

Al convertir el texto de los documentos en un cuerpo de caracteres, podemos organizar, cuantificar e identificar el contenido de muchos documentos al mismo tiempo. En principio, buscamos contar repeticiones de palabras para encontrar los términos clave, así como realizar análisis de conglomerados (clustering) para entender cómo se formaban grupos de lecciones similares y contribuir en la preparación de datos para entrenar algoritmos más avanzados en el futuro. Si quieres aprender un poco más sobre el análisis de conglomerados, puedes descargar este PDF en español.

El análisis de texto es divertido porque permite experimentar con tus datos para probar diferentes hipótesis, así como realizar ejercicios interesantes para aprender en la práctica, conocer y entender cómo se portan los datos de tu organización. Dentro de estas técnicas está el análisis de sentimiento, que determina el sentido de una oración o conjunto de palabras, para identificar el tono en qué está escrita, sea este positivo, negativo o neutro. En nuestro caso, sirve para entender en qué tono se transmite lo que ha sido escrito en las lecciones aprendidas que estamos examinando. Así, podemos clasificar de otra manera los extractos de texto o conjuntos de palabras que hemos definido.

Por ejemplo, primero buscamos dentro de todo nuestro repositorio de aprendizajes las lecciones aprendidas que contenían la expresión “cambio climático”. De este subconjunto, buscamos las palabras con mayor número de repeticiones y luego aplicamos el análisis de sentimiento a la estructura formada por la expresión objetivo y la palabra con mayor número de repeticiones.

Este gráfico presenta de manera sencilla las palabras más repetidas en las lecciones que contienen nuestra expresión objetivo “cambio climático” y su clasificación de sentimiento al sumarla a cada una de estas palabras con mayor repetición. Aunque nos da pistas sobre el comportamiento del texto que analizamos, se debe ser cuidadoso, pues la naturaleza de este conjunto de datos presenta retos de lenguaje, expresiones típicas del BID y en general, los retos que enfrenta cualquier conjunto de datos de texto.

Para llevar a cabo este tipo de ejercicio, se puede obtener resultados más precisos con mayor capacidad de procesamiento en lenguajes como Python con modelos y paquetes adaptados a las características de tus datos (este post menciona varias opciones en código abierto). En este caso, optamos por utilizar una herramienta del servicio MonkeyLearn que procesa el texto de manera sencilla por medio de un complemento para las hojas de cálculo en Google drive. Esta herramienta y otras parecidas pueden ayudar a aquellos con poco conocimiento en programación y curiosos del análisis de texto a entender el tema y experimentar con sus datos de una forma más rápida y sencilla.

Los retos persistentes frente el análisis de texto

Aunque las técnicas de análisis y minería de texto nos han ayudado a agilizar tareas repetitivas e innovar con el procesamiento de nuestras lecciones aprendidas, hemos identificado retos, que llamamos transversales, para seguir utilizando estas herramientas y que creemos pueden ser abordados con otros equipos de trabajo:

  1. El BID cuenta con cuatro idiomas oficiales, por lo que es un reto poder realizar análisis integrando las variaciones en el texto en términos de idioma.
  2. Entender cómo funciona el lenguaje BID: aunque no existen palabras propias de la organización (al menos aún no las conocemos), se manejan expresiones típicas de la ejecución de proyectos o sistemas dentro de la organización que pueden dificultar el tratamiento de estos datos. Es importante tenerlas en cuenta y construir un diccionario que las contenga para refinar cualquier tipo de análisis.
  3. Trabajar de la mano con los generadores de estos datos y aprendizajes es necesario para mejorar paralelamente la calidad del contenido y los formatos digitales con que se producen.

¿Estás utilizando el análisis de texto en tu organización? Cuéntanos cómo en los comentarios.

Lee más artículos sobre lecciones aprendidas de proyectos de desarrollo.

Por Bertha Briceño, especialista líder de la gestión del conocimiento del BID, y Lorena Corso, consultora de la División de Conocimiento y Aprendizaje del BID


Archivado Bajo:Gestión del conocimiento Etiquetado con:Lecciones aprendidas, Procesamiento del Lenguaje Natural, Proyectos de desarrollo

Bertha Briceño

Bertha es Especialista Líder en el Departamento de Conocimiento y Aprendizaje del BID, donde apoya el desarrollo de metodologías y herramientas de gestión del conocimiento para equipos operativos y ejecutores. Como funcionario de organismos multilaterales, ha trabajado en América Latina, Asia y África. Como empleada del gobierno colombiano, trabajó en el Banco Central y el Departamento de Planificación. Bertha tiene una maestría en desarrollo internacional de la Universidad de Harvard.

Lorena Corso Figueroa

Lorena es consultora de gestión del conocimiento en el sector de Conocimiento, Innovación y Comunicación del BID. Es economista y candidata a magíster en Ciencias Económicas de la Universidad Nacional de Colombia, donde también se desempeñó como analista de investigación en economía territorial, transporte y pobreza. Previamente, fue parte del equipo de evaluación de políticas públicas en el Departamento Nacional de Planeación de Colombia. Participó en el Programa de pasantías del BID durante el verano de 2017.

Reader Interactions

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Primary Sidebar

SÍGUENOS

Suscríbete

Sobre este blog

Podemos describir al conocimiento abierto como aquel conocimiento que puede ser usado, reutilizado y compartido sin restricciones, ya que cuenta con las características tanto legales como tecnológicas para ser accedido por cualquier persona, en cualquier momento y en cualquier lugar del mundo.

En el blog 'Abierto al Público' exploramos los temas, recursos, iniciativas e impacto de la apertura de conocimiento a nivel global, prestando especial atención a lo que sucede en la región de América Latina y el Caribe. También abordamos los esfuerzos que lleva a cabo el Banco Interamericano de Desarrollo por apoyar la diseminación del conocimiento abierto y accionable que constantemente genera esta organización.

Buscar

Temas

AcademiaBID Acceso abierto Acceso a la información Análisis de datos Análisis de texto Big Data Cambio climático Ciencia Abierta Conceptos clave Conocimiento Abierto Coronavirus Creative Commons Credenciales digitales Crowdsourcing Código para el Desarrollo Datos geoespaciales Diseño instruccional El Rincón de Publicación Emprendimiento Eventos Gobierno abierto Género y diversidad Hackatones Inclusión digital Innovación abierta Inteligencia Artificial Lecciones aprendidas Metodologías MOOC Más leídos Números para el Desarrollo Objetivos de Desarrollo Sostenible Participación ciudadana Paso a paso Periodismo de datos Procesamiento del Lenguaje Natural Productos de conocimiento Protección de datos Proyectos de desarrollo Recursos accionables Solidaridad Taxonomía Trabajo en equipo Visualización de datos

Publicaciones similares

  • ¿Cómo sistematizar las lecciones aprendidas de los proyectos de desarrollo?
  • Aplicando el procesamiento del lenguaje natural para clasificar artículos del coronavirus
  • ¿Qué son los word embeddings y para qué sirven?
  • La gestión del conocimiento: recursos y oportunidades
  • Procesamiento del lenguaje natural: una piedra angular en la gestión del conocimiento en la era digital

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

    Blogs escritos por empleados del BID:

    Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


    Blogs escritos por autores externos:

    Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

    Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

    Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



    Política de privacidad

    Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

    Banco Interamericano de Desarrollo

    Aviso Legal

    Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

    facebook
    twitter
    youtube
    En este sitio web se utilizan cookies para optimizar la funcionalidad y brindar la mejor experiencia posible. Si continúa visitando otras páginas, se instalarán cookies en su navegador.
    Para obtener más información al respecto, haga clic aquí.
    x
    Manage consent

    Privacy Overview

    This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
    Necessary
    Always Enabled
    Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
    Non-necessary
    Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
    SAVE & ACCEPT