En el BID estamos motivados a aprender cómo las herramientas de código abierto para el análisis de texto y otras tecnologías pueden ayudarnos en la identificación de conocimiento relevante. Con esto en mente, colaboramos con el Instituto para el Futuro para crear SmartReader, una herramienta de análisis de texto que ponemos a disposición de aquellas personas interesadas en trabajar con la Inteligencia Artificial.
Si alguna vez te ha tocado trabajar en un artículo científico, estamos seguros de que la siguiente escena te será muy familiar: te preparaste, te enterraste en una pila de artículos, libros, y ventanas abiertas en el navegador, tratando de darle sentido a todo y de seguir todos los hilos sinuosos del tema que estás investigando. Estás ahora leyendo el quinto documento que encontraste. De repente te das cuenta de que el autor no hizo mucho esfuerzo en hacer una redacción muy entretenida pero lamentablemente te toca llegar hasta el final. Después de todo, ¿qué pasa si la perspectiva que te hace falta para tu investigación está oculta en las profundidades del documento? Lees una página, pero te distraes, tu mente está en otro lado. ¿Deberás leer la página de nuevo o simplemente leer algo más? ¿Pero qué pasa si te pierdes de algo importante?
SmartReader es tu respuesta: un experimento en el uso de técnicas de Procesamiento del Lenguaje Natural para hacer que tu proceso de revisión de la literatura sea más eficiente y efectiva al momento de identificar los argumentos clave que de otro modo podrían pasar desapercibidos. La versión prototipo de la herramienta y su código en Python están ahora disponibles al público como parte de la iniciativa Código para el Desarrollo del BID.
¿Qué hace SmartReader?
Esta herramienta toma el cuerpo de documentos de texto que recopilaste para respaldar tu pregunta de investigación y en minutos, resalta el contenido que te es más relevante.
Los resultados incluyen:
Palabras clave
Mapas de palabras clave, entidades y ubicaciones más relevantes del tema general, así como de cada tema secundario que especificaste.
Contenido relevante
Una lista de oraciones relevantes y únicas al corpus por cada subtema que ingresaste. Estas oraciones también están vinculadas y resaltadas en el texto original para que las puedas consultar en contexto.
Seguramente estarás pensando: “¡Necesito SmartReader!” ¡Y tienes razón! Pero primero, repasemos con más detalle el mecanismo que hace que toda esta magia suceda.
¿Cómo puedes usar SmartReader?
Primero, deberás pensar en una pregunta de investigación como por ejemplo “¿Cómo influirá la tecnología a la economía informal en la próxima década?”
A continuación, recopilarás un conjunto de publicaciones (un cuerpo de documentos) que te parezcan relevantes a tu pregunta de investigación, tal como si estuvieras haciendo una revisión de literatura para resolver una hipótesis. Luego, con el objetivo de establecer un marco con el cual SmartReader analizará el corpus, deberás identificar un tema central (por ejemplo, “economía informal”) acompañado de un conjunto de subtemas relevantes (por ejemplo, “innovación, productividad, cadena de bloques e impuestos”). Con estas entradas, el SmartReader consultará a Google para agregar contexto al marco elegido y utilizará los resultados obtenidos en tiempo real para crear un modelo. Finalmente, compararás el modelo creado con tu corpus. De este modo SmartReader extraerá los términos y entidades más destacadas. Al mismo tiempo se extraerán las frases más relevantes y únicas del cuerpo de documentos. Aquí hay una descripción más a detalle de las diferentes interfaces que encontrarás en SmartReader:
Interfaz 1: Definición del modelo
En esta interfaz es donde le indicas a SmartReader qué tema te interesa y en qué subtemas quisieras enfocar tu investigación para que la herramienta cree un modelo. “¿Qué es un modelo?”, preguntas. Bueno, en este contexto, es un conjunto de palabras clave construidas con base a los resultados de una búsqueda en Google y ponderadas por su relevancia respecto a tu pregunta de investigación.
Interfaz 2: Estado del modelo
En esta interfaz podrás verificar el estado de creación del modelo. El estado de un modelo estará “en cola” inmediatamente después de que el tema y los correspondientes subtemas fueron enviados. El estado cambiará a “procesando” mientras se ejecutan tanto la búsqueda de Google como el análisis del contenido. Finalmente, el estado cambiará a “Hecho” cuando el modelo esté creado y listo para ser utilizado.
Interfaz 3: Aplicación del modelo
Una vez que se el modelo haya sido creado es el momento de decirle a SmartReader que lo use para analizar tu corpus de documentos. Para esto, deberás subir un archivo .zip con tus documentos en formato .txt y elegir de una lista desplegable el modelo quieres aplicar para el análisis. ¡Ahora es cuando la magia sucede!
Interfaz 4: Visualización de resultados
Esta interfaz te permitirá acceder a los resultados. Aquí visualizarás los mapas de las palabras clave, ubicaciones y entidades más relevantes para cada uno de los subtemas, y el tema general. Debajo de cada uno de los subtemas, también verás una lista de oraciones que vale la pena consultar, con enlaces a su ubicación en el texto original. Finalmente podrás descargar los resultados en .json si eso es lo tuyo.
¡Ahora está en TUS manos! ¿Cómo puedes contribuir con esta herramienta de análisis de texto?
SmartReader tiene mucho potencial de mejora para convertirse en una herramienta muy útil para los investigadores y las mentes curiosas. Es por esta razón que la hemos puesto a tu disposición en Código para el Desarrollo como una herramienta de código abierto para el análisis de texto. Allí encontrarás las instrucciones de instalación, una guía del usuario y otra documentación que te ayudará a configurar SmartReader. ¡No podemos estar más a la expectativa de que nos cuentes acerca de tu experiencia! Y si la programación en Python es lo tuyo, hemos compilado una lista de mejoras en la que podrías trabajar como por ejemplo hacer visible los resultados del modelo, incorporar Google Scholar, ajustar las cadenas de consulta utilizadas para crear el modelo y mejorar el algoritmo que establece la relevancia del contenido.
¿Te escuchamos decir “acepto el desafío”?
Por Kyle Strand y Daniela Collaguazo del Sector de Conocimiento, Innovación y Aprendizaje del BID y Seaford Bacchas de la Universidad de West Indies, Mona, Jamaica.
David Fernández Dice
Me parece muy interesante esta herramienta, y me identifico mucho con lo relatado en el segundo párrafo del articulo. Sin embargo, al ver los enlaces del programa, para mí que no manejo nada de programación, se me hizo complicado entender cómo instalar el programa. A mi parecer, este articulo es un llamado a colaboradores para programar y seguir mejorando esta herramienta, por lo cual pregunto ¿hay alguna opción para bajar el programa y utilizarlo directamente; o por el momento solo se enfocan en el desarrollo de esta herramienta?. Muchas gracias por su pronta respuesta. Saludos.
Kyle Strand Dice
Estimado David,
Que bien que te haya gustado el blog y que te animaste a explorar la herramienta!
En este momento, SmartReader sigue en un estado inicial de desarrollo, y no hay una opción para bajarlo y utilizarlo directamente. Al contrario, tal cual como dices, este es un llamado a colaboradores quienes se animan a ayudar a mejorar la herramienta programando en Python.
Queda atento, que en algún momento esperamos tener una versión que podrías utilizar directamente!
Saludos,
Kyle
Roberto Ronconi Dice
Instalé Python en Windows 10 y descargué el achivo Zip lo descomprimí. Ahora que tengo que hacer para poder utilizarlo ?
Daniela Collaguazo Dice
Estimado Roberto,
Fabuloso que estas interesado en SmartReader! Ya estas en buen camino para poder colaborar. Ahora, podrías seguir las instrucciones de instalación y uso en el archivo readme.md (https://github.com/EL-BID/SmartReader/blob/master/README.md) que además contiene mucha información que podría responder a dudas adicionales que tengas.
Saludos,
Daniela
Juan R. Peguero Dice
Saludos!
Gracias por esta iniciativa!
He logrado instalar todo, pero no entiendo bien qué debo hacer para empezar a utilizar los servicios. localhost:8080 can’t be reached.
Osman Fernández Dice
Hola Juan!!
Has logrado correr el programa?
La verdad es que yo también instalé todo, pero no sé por donde iniciar!
Sería bueno si @Daniela Collaguazo Dice nos pudiera dar unos primeros pasos en como inicializar esta herramienta!
Saludos!
Open Knowledge (admin) Dice
Estimado Osman,
Gracias por tu comentario. Me han informado los autores que en respuesta, se ha actualizado el archivo README con información bajo una nueva sección “Cómo funciona” . Esperamos que sea de utilidad.
Muchos saludos,
Equipo Abierto al Público
Osman Fernández Dice
Cordial saludo!
Mil gracias!
Voy a intentar a ver cómo me va!
Saludos!
Rosario Gayol Dice
Interesante la herramienta. Cero que me pudiera funcionar para identificar un concepto que estoy analizando en un discurso político. Al menos, me parece que puede funcionar para identificar esa expresión en textos muy largos para después procesarlos con otras herramientas como Spss. Me gustaría de todas formas, tener más información sobre la herramienta como tal, algún ejemplo desarrollado en detalle y la compatibilidad con programas estadísticos
Alirio Zelaya Dice
Parece ser una excelente herramienta y deseo explorarla y usarla.
carmen Dice
Muy buena
Henry Dice
Saludos.
La herramienta se ve bastante buena, el problema es que para windows no funciona,
Hay alguna versión o por lo menos las variaciones que hay que realizar en la configuración.
No soy experto y aunque he tratado de seguir los pasos, pero con las diferencias para windows, no he logrado que funcione.
Grcias
Carlos Erick Robles Moran Dice
El modelo es muy interesante; aunque no soy programador ni mucho menos. La utilidad que le estoy dando a este modelo, es desarrollar el procedimiento para dar mayor cuerpo a mis temas de investigación y a la elaboración de marcos teóricos. Por ejemplo, identificación y ponderación de palabras claves, sub-temas y contextualización.
Gracias
Luis Rojas Dice
Hola Carlos. Ahora mismo estoy tomando conocimiento de la herramienta y al igual que tú, no soy programador pero sí quisiera utilizar la herramienta para mi trabajo de investigación, específicamente en el marco teórico que debo tener listo en breve.
Si pudieras darme algunos alcances sobre el uso para investigadores no programadores, te lo agradecería muchísimo.
Juan Irigoin Torres Dice
Excelente
eduardo Dice
mejorar los prouctos y servicios, con el objetivo de ser conpetitivos , de permanecer en el negocio y de proporcionar puestos de trabajo
Tomas Bradanovic Dice
Leyendo este artículo encontré un caso de uso que me podría servir: usar smart reader para analizar de manera dinámica los contenidos de mi blog. Tengo un blog con entradas diarias desde el año 2005, hoy tiene 6107 entradas, una entrada tipo contiene entre 500 y 1000 palabras, además de 69677 comentarios. Todo esto lo tengo en un corpus en formato xml (el archivo de respaldo) de 212 Mb más o menos.
Muy frecuentemente tengo que buscar -basado en mi memoria- material entre este montón de contenidos y creo que para mi y los seguidores de mi blog una herramienta como Smart Reader podría ser muy útil
¿Puedo bajarla acceder a ella desde algún sitio online? No me quedó claro al leer el artículo
jose Cuasquer Dice
No tengo conocimiento sobre phyton, podrian indicarme el link de donde poderlo descargar?