Conoce SmartReader, nuestra herramienta de análisis de texto

September 7, 2018 por Kyle Strand - Daniela Collaguazo 18 Comentarios

En el BID estamos motivados a aprender cómo las herramientas de código abierto para el análisis de texto y otras tecnologías pueden ayudarnos en la identificación de conocimiento relevante. Con esto en mente, colaboramos con el Instituto para el Futuro para crear SmartReader, una herramienta de análisis de texto que ponemos a disposición de aquellas personas interesadas en trabajar con la Inteligencia Artificial.

Si alguna vez te ha tocado trabajar en un artículo científico, estamos seguros de que la siguiente escena te será muy familiar: te preparaste, te enterraste en una pila de artículos, libros, y ventanas abiertas en el navegador, tratando de darle sentido a todo y de seguir todos los hilos sinuosos del tema que estás investigando. Estás ahora leyendo el quinto documento que encontraste. De repente te das cuenta de que el autor no hizo mucho esfuerzo en hacer una redacción muy entretenida pero lamentablemente te toca llegar hasta el final. Después de todo, ¿qué pasa si la perspectiva que te hace falta para tu investigación está oculta en las profundidades del documento? Lees una página, pero te distraes, tu mente está en otro lado. ¿Deberás leer la página de nuevo o simplemente leer algo más? ¿Pero qué pasa si te pierdes de algo importante?

SmartReader es tu respuesta: un experimento en el uso de técnicas de Procesamiento del Lenguaje Natural para hacer que tu proceso de revisión de la literatura sea más eficiente y efectiva al momento de identificar los argumentos clave que de otro modo podrían pasar desapercibidos. La versión prototipo de la herramienta y su código en Python están ahora disponibles al público como parte de la iniciativa Código para el Desarrollo del BID.

¿Qué hace SmartReader?

Esta herramienta toma el cuerpo de documentos de texto que recopilaste para respaldar tu pregunta de investigación y en minutos, resalta el contenido que te es más relevante.

Los resultados incluyen:

Palabras clave

Mapas de palabras clave, entidades y ubicaciones más relevantes del tema general, así como de cada tema secundario que especificaste.

Contenido relevante

Una lista de oraciones relevantes y únicas al corpus por cada subtema que ingresaste. Estas oraciones también están vinculadas y resaltadas en el texto original para que las puedas consultar en contexto.

Seguramente estarás pensando: “¡Necesito SmartReader!” ¡Y tienes razón! Pero primero, repasemos con más detalle el mecanismo que hace que toda esta magia suceda.

¿Cómo puedes usar SmartReader?

Primero, deberás pensar en una pregunta de investigación como por ejemplo “¿Cómo influirá la tecnología a la economía informal en la próxima década?”

A continuación, recopilarás un conjunto de publicaciones (un cuerpo de documentos) que te parezcan relevantes a tu pregunta de investigación, tal como si estuvieras haciendo una revisión de literatura para resolver una hipótesis. Luego, con el objetivo de establecer un marco con el cual SmartReader analizará el corpus, deberás identificar un tema central (por ejemplo, “economía informal”) acompañado de un conjunto de subtemas relevantes (por ejemplo, “innovación, productividad, cadena de bloques e impuestos”). Con estas entradas, el SmartReader consultará a Google para agregar contexto al marco elegido y utilizará los resultados obtenidos en tiempo real para crear un modelo. Finalmente, compararás el modelo creado con tu corpus. De este modo SmartReader extraerá los términos y entidades más destacadas. Al mismo tiempo se extraerán las frases más relevantes y únicas del cuerpo de documentos. Aquí hay una descripción más a detalle de las diferentes interfaces que encontrarás en SmartReader:

Interfaz 1: Definición del modelo

En esta interfaz es donde le indicas a SmartReader qué tema te interesa y en qué subtemas quisieras enfocar tu investigación para que la herramienta cree un modelo. “¿Qué es un modelo?”, preguntas. Bueno, en este contexto, es un conjunto de palabras clave construidas con base a los resultados de una búsqueda en Google y ponderadas por su relevancia respecto a tu pregunta de investigación.

Interfaz 2: Estado del modelo

En esta interfaz podrás verificar el estado de creación del modelo. El estado de un modelo estará “en cola” inmediatamente después de que el tema y los correspondientes subtemas fueron enviados. El estado cambiará a “procesando” mientras se ejecutan tanto la búsqueda de Google como el análisis del contenido. Finalmente, el estado cambiará a “Hecho” cuando el modelo esté creado y listo para ser utilizado.

Interfaz 3: Aplicación del modelo

Una vez que se el modelo haya sido creado es el momento de decirle a SmartReader que lo use para analizar tu corpus de documentos. Para esto, deberás subir un archivo .zip con tus documentos en formato .txt y elegir de una lista desplegable el modelo quieres aplicar para el análisis. ¡Ahora es cuando la magia sucede!

Interfaz 4: Visualización de resultados

Esta interfaz te permitirá acceder a los resultados. Aquí visualizarás los mapas de las palabras clave, ubicaciones y entidades más relevantes para cada uno de los subtemas, y el tema general. Debajo de cada uno de los subtemas, también verás una lista de oraciones que vale la pena consultar, con enlaces a su ubicación en el texto original. Finalmente podrás descargar los resultados en .json si eso es lo tuyo.

¡Ahora está en TUS manos! ¿Cómo puedes contribuir con esta herramienta de análisis de texto?

SmartReader tiene mucho potencial de mejora para convertirse en una herramienta muy útil para los investigadores y las mentes curiosas. Es por esta razón que la hemos puesto a tu disposición en Código para el Desarrollo como una herramienta de código abierto para el análisis de texto. Allí encontrarás las instrucciones de instalación, una guía del usuario y otra documentación que te ayudará a configurar SmartReader. ¡No podemos estar más a la expectativa de que nos cuentes acerca de tu experiencia! Y si la programación en Python es lo tuyo, hemos compilado una lista de mejoras en la que podrías trabajar como por ejemplo hacer visible los resultados del modelo, incorporar Google Scholar, ajustar las cadenas de consulta utilizadas para crear el modelo y mejorar el algoritmo que establece la relevancia del contenido.

¿Te escuchamos decir “acepto el desafío”?

Por Kyle Strand y Daniela Collaguazo del Sector de Conocimiento, Innovación y Aprendizaje del BID y Seaford Bacchas de la Universidad de West Indies, Mona, Jamaica.

Kyle Strand

Kyle Strand es especialista senior en Gestión del Conocimiento y lidera la Biblioteca Felipe Herrera en el Sector de Conocimiento, Innovación y Comunicación del Banco Interamericano de Desarrollo (BID). Durante más de una década, su trabajo se ha centrado en iniciativas para mejorar el acceso al conocimiento tanto en el Banco como en la región de América Latina y el Caribe. Kyle diseñó el primer repositorio abierto de productos de conocimiento en el BID y encabezó la idea del software como un producto de conocimiento para ser reutilizado y adaptado con fines de desarrollo, lo que llevó al BID a convertirse en la primera entidad multilateral en reconocerlo formalmente como tal. Actualmente, Kyle coordina los servicios bibliotecarios dentro de la organización, apoya el ciclo de vida (creación, publicación y reutilización) de productos de conocimiento abierto (incluyendo publicaciones y datos abiertos), y promueve el uso de la inteligencia artificial y el procesamiento del lenguaje natural como piedra angular de la gestión del conocimiento en la era digital. Kyle también es editor ejecutivo de Abierto al Público, un blog en español que promueve la apertura y reutilización del conocimiento. Cuenta con una licenciatura de la Universidad de Michigan y una maestría de la Universidad George Washington.

Daniela Collaguazo

Nacida en Quito, Ecuador en abril de 1984. Daniela culminó sus estudios de pregrado en la Universidad San Francisco de Quito. Posteriormente, vivió 3 años en Alemania, en donde cursó su maestría en Gestión de la Tecnología e Innovación en la Universidad Técnica de Brandenburgo Cottbus-Senftenberg. Al culminar sus estudios, Daniela enseñó Tecnologías Web en la Facultad de Arquitectura Diseño y Artes en la Pontificia Universidad Católica del Ecuador. Actualmente, se encuentra colaborando con el BID como consultora en proyectos relacionados con aprendizaje automático y procesamiento del lenguaje natural. Es una apasionada del deporte y ha participado en varias competencias en su país natal, entre ellas una de aguas abiertas y los dos primeros triatlones de media distancia.

Comments

David Fernández Dice

September 28, 2018 at 2:09 am

Me parece muy interesante esta herramienta, y me identifico mucho con lo relatado en el segundo párrafo del articulo. Sin embargo, al ver los enlaces del programa, para mí que no manejo nada de programación, se me hizo complicado entender cómo instalar el programa. A mi parecer, este articulo es un llamado a colaboradores para programar y seguir mejorando esta herramienta, por lo cual pregunto ¿hay alguna opción para bajar el programa y utilizarlo directamente; o por el momento solo se enfocan en el desarrollo de esta herramienta?. Muchas gracias por su pronta respuesta. Saludos.

Reply
- Kyle Strand Dice
  
  November 12, 2018 at 7:53 pm
  
  Estimado David,
  
  Que bien que te haya gustado el blog y que te animaste a explorar la herramienta!
  
  En este momento, SmartReader sigue en un estado inicial de desarrollo, y no hay una opción para bajarlo y utilizarlo directamente. Al contrario, tal cual como dices, este es un llamado a colaboradores quienes se animan a ayudar a mejorar la herramienta programando en Python.
  
  Queda atento, que en algún momento esperamos tener una versión que podrías utilizar directamente!
  
  Saludos,
  
  Kyle
  
  Reply
Roberto Ronconi Dice

September 28, 2018 at 3:34 pm

Instalé Python en Windows 10 y descargué el achivo Zip lo descomprimí. Ahora que tengo que hacer para poder utilizarlo ?

Reply
- Daniela Collaguazo Dice
  
  November 12, 2018 at 7:57 pm
  
  Estimado Roberto,
  
  Fabuloso que estas interesado en SmartReader! Ya estas en buen camino para poder colaborar. Ahora, podrías seguir las instrucciones de instalación y uso en el archivo readme.md (https://github.com/EL-BID/SmartReader/blob/master/README.md) que además contiene mucha información que podría responder a dudas adicionales que tengas.
  
  Saludos,
  
  Daniela
  
  Reply
Juan R. Peguero Dice

March 3, 2019 at 11:03 pm

Saludos!
Gracias por esta iniciativa!
He logrado instalar todo, pero no entiendo bien qué debo hacer para empezar a utilizar los servicios. localhost:8080 can’t be reached.

Reply
- Osman Fernández Dice
  
  June 6, 2019 at 2:50 pm
  
  Hola Juan!!
  Has logrado correr el programa?
  La verdad es que yo también instalé todo, pero no sé por donde iniciar!
  
  Sería bueno si @Daniela Collaguazo Dice nos pudiera dar unos primeros pasos en como inicializar esta herramienta!
  
  Saludos!
  
  Reply
  - Open Knowledge (admin) Dice
    
    June 21, 2019 at 3:28 pm
    
    Estimado Osman,
    Gracias por tu comentario. Me han informado los autores que en respuesta, se ha actualizado el archivo README con información bajo una nueva sección “Cómo funciona” . Esperamos que sea de utilidad.
    
    Muchos saludos,
    Equipo Abierto al Público
    
    Reply
    - Osman Fernández Dice
      
      July 3, 2019 at 4:33 pm
      
      Cordial saludo!
      Mil gracias!
      
      Voy a intentar a ver cómo me va!
      
      Saludos!
      
      Reply
Rosario Gayol Dice

April 11, 2019 at 4:08 pm

Interesante la herramienta. Cero que me pudiera funcionar para identificar un concepto que estoy analizando en un discurso político. Al menos, me parece que puede funcionar para identificar esa expresión en textos muy largos para después procesarlos con otras herramientas como Spss. Me gustaría de todas formas, tener más información sobre la herramienta como tal, algún ejemplo desarrollado en detalle y la compatibilidad con programas estadísticos

Reply
Alirio Zelaya Dice

November 28, 2019 at 6:21 pm

Parece ser una excelente herramienta y deseo explorarla y usarla.

Reply
carmen Dice

March 31, 2020 at 11:05 pm

Muy buena

Reply
Henry Dice

May 27, 2020 at 2:32 am

Saludos.
La herramienta se ve bastante buena, el problema es que para windows no funciona,
Hay alguna versión o por lo menos las variaciones que hay que realizar en la configuración.
No soy experto y aunque he tratado de seguir los pasos, pero con las diferencias para windows, no he logrado que funcione.

Grcias

Reply
Carlos Erick Robles Moran Dice

March 19, 2021 at 8:07 pm

El modelo es muy interesante; aunque no soy programador ni mucho menos. La utilidad que le estoy dando a este modelo, es desarrollar el procedimiento para dar mayor cuerpo a mis temas de investigación y a la elaboración de marcos teóricos. Por ejemplo, identificación y ponderación de palabras claves, sub-temas y contextualización.
Gracias

Reply
- Luis Rojas Dice
  
  October 9, 2021 at 5:34 pm
  
  Hola Carlos. Ahora mismo estoy tomando conocimiento de la herramienta y al igual que tú, no soy programador pero sí quisiera utilizar la herramienta para mi trabajo de investigación, específicamente en el marco teórico que debo tener listo en breve.
  Si pudieras darme algunos alcances sobre el uso para investigadores no programadores, te lo agradecería muchísimo.
  
  Reply
Juan Irigoin Torres Dice

April 25, 2021 at 11:44 pm

Excelente

Reply
eduardo Dice

July 29, 2021 at 6:04 pm

mejorar los prouctos y servicios, con el objetivo de ser conpetitivos , de permanecer en el negocio y de proporcionar puestos de trabajo

Reply
Tomas Bradanovic Dice

November 29, 2022 at 10:58 pm

Leyendo este artículo encontré un caso de uso que me podría servir: usar smart reader para analizar de manera dinámica los contenidos de mi blog. Tengo un blog con entradas diarias desde el año 2005, hoy tiene 6107 entradas, una entrada tipo contiene entre 500 y 1000 palabras, además de 69677 comentarios. Todo esto lo tengo en un corpus en formato xml (el archivo de respaldo) de 212 Mb más o menos.
Muy frecuentemente tengo que buscar -basado en mi memoria- material entre este montón de contenidos y creo que para mi y los seguidores de mi blog una herramienta como Smart Reader podría ser muy útil
¿Puedo bajarla acceder a ella desde algún sitio online? No me quedó claro al leer el artículo

Reply
jose Cuasquer Dice

October 4, 2023 at 3:12 pm

No tengo conocimiento sobre phyton, podrian indicarme el link de donde poderlo descargar?

Reply

Conoce SmartReader, nuestra herramienta de análisis de texto

¿Qué hace SmartReader?

Palabras clave

Contenido relevante

¿Cómo puedes usar SmartReader?

Interfaz 1: Definición del modelo

Interfaz 2: Estado del modelo

Interfaz 3: Aplicación del modelo

Interfaz 4: Visualización de resultados

¡Ahora está en TUS manos! ¿Cómo puedes contribuir con esta herramienta de análisis de texto?

Blogs escritos por empleados del BID:

Blogs escritos por autores externos:

¿Qué hace SmartReader?

Palabras clave

Contenido relevante

¿Cómo puedes usar SmartReader?

Interfaz 1: Definición del modelo

Interfaz 2: Estado del modelo

Interfaz 3: Aplicación del modelo

Interfaz 4: Visualización de resultados

¡Ahora está en TUS manos! ¿Cómo puedes contribuir con esta herramienta de análisis de texto?

Kyle Strand

Daniela Collaguazo

Reader Interactions

Comments

Leave a Reply Cancel reply

Footer

Blogs escritos por empleados del BID:

Blogs escritos por autores externos: