Un reto común en la captura de lecciones aprendidas es poder sintetizar su análisis. En este post, revisamos algunas de las técnicas de automatización que hacen uso de minería de texto, aprendizaje automático (machine learning) y de procesamiento de lenguaje natural que hemos explorado para lograrlo.
Clasificar las lecciones aprendidas registradas en los proyectos de desarrollo del BID es un proceso en el que hemos venido trabajando para buscar la mejor manera de sistematizar los aprendizajes provenientes de los documentos operacionales de la organización. Estos se encuentran documentados en formato PDF. Por lo que hemos explorado técnicas de automatización por medio de minería de texto, de aprendizaje automático y de procesamiento de lenguaje natural para lograr su análisis de manera más automática y eficiente.
Aunque cada día aumentan las posibilidades para procesar texto por la creación de nuevos paquetes de análisis, herramientas y técnicas de procesamiento de este tipo de datos, siempre es recomendable explorar algunas herramientas básicas para entender su funcionamiento, alcance y, sobre todo, conocer más a fondo cómo se comportan tus datos. En esta entrada, te contamos algunas tareas que hemos automatizado con herramientas de procesamiento de texto y esperamos que despierten tu curiosidad por explorar este campo.
Tareas complicadas hechas sencillas por algoritmos
- “Leer” o convertir texto
La extracción del texto que se encuentra en documentos PDF es el primer paso para iniciar el proceso de sistematización de aprendizajes que han sido documentados en informes “impresos”. Si se realizara manualmente, se necesitaría una gran cantidad de horas hombre por el elevado volumen de documentos que se debe examinar. Es posible realizar esta tarea con la ayuda de paquetes de herramientas para el tratamiento de documentos en este formato como pdftools o PyPDF2. Tabula es también una buena opción, especialmente para extraer de tablas y cuadros.
A continuación, te mostramos un ejemplo gráfico que ilustra el trabajo de estos algoritmos para que tengas una idea más clara de lo que se puede hacer al extraer texto:
- Buscar patrones o estructuras conocidas
Al tener un cuerpo de información no estructurada (texto, en este caso) que ha sido recuperado de múltiples informes que tienen la misma estructura de organización del contenido, es posible definir qué extracto específico de texto vamos a analizar, si hemos identificado un patrón de palabras establecidas. Por ejemplo, en un primer ejercicio de sistematización de lecciones aprendidas, buscamos todo el texto que se sitúa bajo los títulos “Lecciones aprendidas” o “Hallazgos y Recomendaciones” en cerca de 100 documentos en un tiempo menor a dos minutos. Imagina el tiempo que habría tomado hacer lo mismo de manera manual, abriendo cada documento PDF y buscando este título en todo el contenido.
En el caso de los aprendizajes del BID, ha sido necesario especificar todas las variaciones de idiomas para la búsqueda de esta estructura conocida, especificando los cuatro idiomas oficiales de la organización: español, portugués, inglés, y francés.
- Identificar palabras clave y analizar su sentimiento
Al convertir el texto de los documentos en un cuerpo de caracteres, podemos organizar, cuantificar e identificar el contenido de muchos documentos al mismo tiempo. En principio, buscamos contar repeticiones de palabras para encontrar los términos clave, así como realizar análisis de conglomerados (clustering) para entender cómo se formaban grupos de lecciones similares y contribuir en la preparación de datos para entrenar algoritmos más avanzados en el futuro. Si quieres aprender un poco más sobre el análisis de conglomerados, puedes descargar este PDF en español.
El análisis de texto es divertido porque permite experimentar con tus datos para probar diferentes hipótesis, así como realizar ejercicios interesantes para aprender en la práctica, conocer y entender cómo se portan los datos de tu organización. Dentro de estas técnicas está el análisis de sentimiento, que determina el sentido de una oración o conjunto de palabras, para identificar el tono en qué está escrita, sea este positivo, negativo o neutro. En nuestro caso, sirve para entender en qué tono se transmite lo que ha sido escrito en las lecciones aprendidas que estamos examinando. Así, podemos clasificar de otra manera los extractos de texto o conjuntos de palabras que hemos definido.
Por ejemplo, primero buscamos dentro de todo nuestro repositorio de aprendizajes las lecciones aprendidas que contenían la expresión “cambio climático”. De este subconjunto, buscamos las palabras con mayor número de repeticiones y luego aplicamos el análisis de sentimiento a la estructura formada por la expresión objetivo y la palabra con mayor número de repeticiones.
Este gráfico presenta de manera sencilla las palabras más repetidas en las lecciones que contienen nuestra expresión objetivo “cambio climático” y su clasificación de sentimiento al sumarla a cada una de estas palabras con mayor repetición. Aunque nos da pistas sobre el comportamiento del texto que analizamos, se debe ser cuidadoso, pues la naturaleza de este conjunto de datos presenta retos de lenguaje, expresiones típicas del BID y en general, los retos que enfrenta cualquier conjunto de datos de texto.
Para llevar a cabo este tipo de ejercicio, se puede obtener resultados más precisos con mayor capacidad de procesamiento en lenguajes como Python con modelos y paquetes adaptados a las características de tus datos (este post menciona varias opciones en código abierto). En este caso, optamos por utilizar una herramienta del servicio MonkeyLearn que procesa el texto de manera sencilla por medio de un complemento para las hojas de cálculo en Google drive. Esta herramienta y otras parecidas pueden ayudar a aquellos con poco conocimiento en programación y curiosos del análisis de texto a entender el tema y experimentar con sus datos de una forma más rápida y sencilla.
Los retos persistentes frente el análisis de texto
Aunque las técnicas de análisis y minería de texto nos han ayudado a agilizar tareas repetitivas e innovar con el procesamiento de nuestras lecciones aprendidas, hemos identificado retos, que llamamos transversales, para seguir utilizando estas herramientas y que creemos pueden ser abordados con otros equipos de trabajo:
- El BID cuenta con cuatro idiomas oficiales, por lo que es un reto poder realizar análisis integrando las variaciones en el texto en términos de idioma.
- Entender cómo funciona el lenguaje BID: aunque no existen palabras propias de la organización (al menos aún no las conocemos), se manejan expresiones típicas de la ejecución de proyectos o sistemas dentro de la organización que pueden dificultar el tratamiento de estos datos. Es importante tenerlas en cuenta y construir un diccionario que las contenga para refinar cualquier tipo de análisis.
- Trabajar de la mano con los generadores de estos datos y aprendizajes es necesario para mejorar paralelamente la calidad del contenido y los formatos digitales con que se producen.
¿Estás utilizando el análisis de texto en tu organización? Cuéntanos cómo en los comentarios.
Lee más artículos sobre lecciones aprendidas de proyectos de desarrollo.
Por Bertha Briceño, especialista líder de la gestión del conocimiento del BID, y Lorena Corso, consultora de la División de Conocimiento y Aprendizaje del BID
Leave a Reply