Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Abierto al públicoBeyond BordersCaribbean Development TrendsCiudades SosteniblesEnergía para el FuturoEnfoque EducaciónFactor TrabajoGente SaludableGestión fiscalGobernarteIdeas MatterIdeas que CuentanIdeaçãoImpactoIndustrias CreativasLa Maleta AbiertaMoviliblogMás Allá de las FronterasNegocios SosteniblesPrimeros PasosPuntos sobre la iSeguridad CiudadanaSostenibilidadVolvamos a la fuente¿Y si hablamos de igualdad?Inicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Abierto al público

  • INICIO
    • ¿Qué es el Conocimiento Abierto?
    • Sobre este blog
    • ¿Cómo suscribirse?
    • Pautas editoriales
  • CATEGORÍAS
    • Aprendizaje abierto
    • Código abierto
    • Datos abiertos
    • Gestión del conocimiento
    • Sistemas abiertos
  • AUTORES
  • Español
    • English

Conoce SmartReader, nuestra herramienta de análisis de texto

September 7, 2018 por Kyle Strand - Daniela Collaguazo 18 Comentarios


En el BID estamos motivados a aprender cómo las herramientas de código abierto para el análisis de texto y otras tecnologías pueden ayudarnos en la identificación de conocimiento relevante. Con esto en mente, colaboramos con el Instituto para el Futuro para crear SmartReader, una herramienta de análisis de texto que ponemos a disposición de aquellas personas interesadas en trabajar con la Inteligencia Artificial.

Si alguna vez te ha tocado trabajar en un artículo científico, estamos seguros de que la siguiente escena te será muy familiar: te preparaste, te enterraste en una pila de artículos, libros, y ventanas abiertas en el navegador, tratando de darle sentido a todo y de seguir todos los hilos sinuosos del tema que estás investigando. Estás ahora leyendo el quinto documento que encontraste. De repente te das cuenta de que el autor no hizo mucho esfuerzo en hacer una redacción muy entretenida pero lamentablemente te toca llegar hasta el final. Después de todo, ¿qué pasa si la perspectiva que te hace falta para tu investigación está oculta en las profundidades del documento? Lees una página, pero te distraes, tu mente está en otro lado. ¿Deberás leer la página de nuevo o simplemente leer algo más? ¿Pero qué pasa si te pierdes de algo importante?

SmartReader es tu respuesta: un experimento en el uso de técnicas de Procesamiento del Lenguaje Natural para hacer que tu proceso de revisión de la literatura sea más eficiente y efectiva al momento de identificar los argumentos clave que de otro modo podrían pasar desapercibidos. La versión prototipo de la herramienta y su código en Python están ahora disponibles al público como parte de la iniciativa Código para el Desarrollo del BID.

¿Qué hace SmartReader?

Esta herramienta toma el cuerpo de documentos de texto que recopilaste para respaldar tu pregunta de investigación y en minutos, resalta el contenido que te es más relevante.

Los resultados incluyen:

Palabras clave

Mapas de palabras clave, entidades y ubicaciones más relevantes del tema general, así como de cada tema secundario que especificaste.

Contenido relevante

Una lista de oraciones relevantes y únicas al corpus por cada subtema que ingresaste. Estas oraciones también están vinculadas y resaltadas en el texto original para que las puedas consultar en contexto.

Seguramente estarás pensando: “¡Necesito SmartReader!” ¡Y tienes razón! Pero primero, repasemos con más detalle el mecanismo que hace que toda esta magia suceda.

¿Cómo puedes usar SmartReader?

Primero, deberás pensar en una pregunta de investigación como por ejemplo “¿Cómo influirá la tecnología a la economía informal en la próxima década?”

A continuación, recopilarás un conjunto de publicaciones (un cuerpo de documentos) que te parezcan relevantes a tu pregunta de investigación, tal como si estuvieras haciendo una revisión de literatura para resolver una hipótesis. Luego, con el objetivo de establecer un marco con el cual SmartReader analizará el corpus, deberás identificar un tema central (por ejemplo, “economía informal”) acompañado de un conjunto de subtemas relevantes (por ejemplo, “innovación, productividad, cadena de bloques e impuestos”). Con estas entradas, el SmartReader consultará a Google para agregar contexto al marco elegido y utilizará los resultados obtenidos en tiempo real para crear un modelo. Finalmente, compararás el modelo creado con tu corpus. De este modo SmartReader extraerá los términos y entidades más destacadas. Al mismo tiempo se extraerán las frases más relevantes y únicas del cuerpo de documentos. Aquí hay una descripción más a detalle de las diferentes interfaces que encontrarás en SmartReader:

Interfaz 1: Definición del modelo

En esta interfaz es donde le indicas a SmartReader qué tema te interesa y en qué subtemas quisieras enfocar tu investigación para que la herramienta cree un modelo. “¿Qué es un modelo?”, preguntas. Bueno, en este contexto, es un conjunto de palabras clave construidas con base a los resultados de una búsqueda en Google y ponderadas por su relevancia respecto a tu pregunta de investigación.

Interfaz 2: Estado del modelo

En esta interfaz podrás verificar el estado de creación del modelo. El estado de un modelo estará “en cola” inmediatamente después de que el tema y los correspondientes subtemas fueron enviados. El estado cambiará a “procesando” mientras se ejecutan tanto la búsqueda de Google como el análisis del contenido. Finalmente, el estado cambiará a “Hecho” cuando el modelo esté creado y listo para ser utilizado.

Interfaz 3: Aplicación del modelo

Una vez que se el modelo haya sido creado es el momento de decirle a SmartReader que lo use para analizar tu corpus de documentos. Para esto, deberás subir un archivo .zip con tus documentos en formato .txt y elegir de una lista desplegable el modelo quieres aplicar para el análisis. ¡Ahora es cuando la magia sucede!

Interfaz 4: Visualización de resultados

Esta interfaz te permitirá acceder a los resultados. Aquí visualizarás los mapas de las palabras clave, ubicaciones y entidades más relevantes para cada uno de los subtemas, y el tema general. Debajo de cada uno de los subtemas, también verás una lista de oraciones que vale la pena consultar, con enlaces a su ubicación en el texto original. Finalmente podrás descargar los resultados en .json si eso es lo tuyo.

¡Ahora está en TUS manos! ¿Cómo puedes contribuir con esta herramienta de análisis de texto?

SmartReader tiene mucho potencial de mejora para convertirse en una herramienta muy útil para los investigadores y las mentes curiosas. Es por esta razón que la hemos puesto a tu disposición en Código para el Desarrollo como una herramienta de código abierto para el análisis de texto. Allí encontrarás las instrucciones de instalación, una guía del usuario y otra documentación que te ayudará a configurar SmartReader. ¡No podemos estar más a la expectativa de que nos cuentes acerca de tu experiencia! Y si la programación en Python es lo tuyo, hemos compilado una lista de mejoras en la que podrías trabajar como por ejemplo hacer visible los resultados del modelo, incorporar Google Scholar, ajustar las cadenas de consulta utilizadas para crear el modelo y mejorar el algoritmo que establece la relevancia del contenido.

¿Te escuchamos decir “acepto el desafío”?

Por Kyle Strand y Daniela Collaguazo del Sector de Conocimiento, Innovación y Aprendizaje del BID y Seaford Bacchas de la Universidad de West Indies, Mona, Jamaica.


Archivado Bajo:Código abierto Etiquetado con:Análisis de texto, Código para el Desarrollo, Recursos accionables

Kyle Strand

Kyle Strand es especialista senior en Gestión del Conocimiento y lidera la Biblioteca Felipe Herrera en el Sector de Conocimiento, Innovación y Comunicación del Banco Interamericano de Desarrollo (BID). Durante más de una década, su trabajo se ha centrado en iniciativas para mejorar el acceso al conocimiento tanto en el Banco como en la región de América Latina y el Caribe. Kyle diseñó el primer repositorio abierto de productos de conocimiento en el BID y encabezó la idea del software como un producto de conocimiento para ser reutilizado y adaptado con fines de desarrollo, lo que llevó al BID a convertirse en la primera entidad multilateral en reconocerlo formalmente como tal. Actualmente, Kyle coordina los servicios bibliotecarios dentro de la organización, apoya el ciclo de vida (creación, publicación y reutilización) de productos de conocimiento abierto (incluyendo publicaciones y datos abiertos), y promueve el uso de la inteligencia artificial y el procesamiento del lenguaje natural como piedra angular de la gestión del conocimiento en la era digital. Kyle también es editor ejecutivo de Abierto al Público, un blog en español que promueve la apertura y reutilización del conocimiento. Cuenta con una licenciatura de la Universidad de Michigan y una maestría de la Universidad George Washington.

Daniela Collaguazo

Nacida en Quito, Ecuador en abril de 1984. Daniela culminó sus estudios de pregrado en la Universidad San Francisco de Quito. Posteriormente, vivió 3 años en Alemania, en donde cursó su maestría en Gestión de la Tecnología e Innovación en la Universidad Técnica de Brandenburgo Cottbus-Senftenberg. Al culminar sus estudios, Daniela enseñó Tecnologías Web en la Facultad de Arquitectura Diseño y Artes en la Pontificia Universidad Católica del Ecuador. Actualmente, se encuentra colaborando con el BID como consultora en proyectos relacionados con aprendizaje automático y procesamiento del lenguaje natural. Es una apasionada del deporte y ha participado en varias competencias en su país natal, entre ellas una de aguas abiertas y los dos primeros triatlones de media distancia.

Reader Interactions

Comments

  1. David Fernández Dice

    September 28, 2018 at 2:09 am

    Me parece muy interesante esta herramienta, y me identifico mucho con lo relatado en el segundo párrafo del articulo. Sin embargo, al ver los enlaces del programa, para mí que no manejo nada de programación, se me hizo complicado entender cómo instalar el programa. A mi parecer, este articulo es un llamado a colaboradores para programar y seguir mejorando esta herramienta, por lo cual pregunto ¿hay alguna opción para bajar el programa y utilizarlo directamente; o por el momento solo se enfocan en el desarrollo de esta herramienta?. Muchas gracias por su pronta respuesta. Saludos.

    Reply
    • Kyle Strand Dice

      November 12, 2018 at 7:53 pm

      Estimado David,

      Que bien que te haya gustado el blog y que te animaste a explorar la herramienta!

      En este momento, SmartReader sigue en un estado inicial de desarrollo, y no hay una opción para bajarlo y utilizarlo directamente. Al contrario, tal cual como dices, este es un llamado a colaboradores quienes se animan a ayudar a mejorar la herramienta programando en Python.

      Queda atento, que en algún momento esperamos tener una versión que podrías utilizar directamente!

      Saludos,

      Kyle

      Reply
  2. Roberto Ronconi Dice

    September 28, 2018 at 3:34 pm

    Instalé Python en Windows 10 y descargué el achivo Zip lo descomprimí. Ahora que tengo que hacer para poder utilizarlo ?

    Reply
    • Daniela Collaguazo Dice

      November 12, 2018 at 7:57 pm

      Estimado Roberto,

      Fabuloso que estas interesado en SmartReader! Ya estas en buen camino para poder colaborar. Ahora, podrías seguir las instrucciones de instalación y uso en el archivo readme.md (https://github.com/EL-BID/SmartReader/blob/master/README.md) que además contiene mucha información que podría responder a dudas adicionales que tengas.

      Saludos,

      Daniela

      Reply
  3. Juan R. Peguero Dice

    March 3, 2019 at 11:03 pm

    Saludos!
    Gracias por esta iniciativa!
    He logrado instalar todo, pero no entiendo bien qué debo hacer para empezar a utilizar los servicios. localhost:8080 can’t be reached.

    Reply
    • Osman Fernández Dice

      June 6, 2019 at 2:50 pm

      Hola Juan!!
      Has logrado correr el programa?
      La verdad es que yo también instalé todo, pero no sé por donde iniciar!

      Sería bueno si @Daniela Collaguazo Dice nos pudiera dar unos primeros pasos en como inicializar esta herramienta!

      Saludos!

      Reply
      • Open Knowledge (admin) Dice

        June 21, 2019 at 3:28 pm

        Estimado Osman,
        Gracias por tu comentario. Me han informado los autores que en respuesta, se ha actualizado el archivo README con información bajo una nueva sección “Cómo funciona” . Esperamos que sea de utilidad.

        Muchos saludos,
        Equipo Abierto al Público

        Reply
        • Osman Fernández Dice

          July 3, 2019 at 4:33 pm

          Cordial saludo!
          Mil gracias!

          Voy a intentar a ver cómo me va!

          Saludos!

          Reply
  4. Rosario Gayol Dice

    April 11, 2019 at 4:08 pm

    Interesante la herramienta. Cero que me pudiera funcionar para identificar un concepto que estoy analizando en un discurso político. Al menos, me parece que puede funcionar para identificar esa expresión en textos muy largos para después procesarlos con otras herramientas como Spss. Me gustaría de todas formas, tener más información sobre la herramienta como tal, algún ejemplo desarrollado en detalle y la compatibilidad con programas estadísticos

    Reply
  5. Alirio Zelaya Dice

    November 28, 2019 at 6:21 pm

    Parece ser una excelente herramienta y deseo explorarla y usarla.

    Reply
  6. carmen Dice

    March 31, 2020 at 11:05 pm

    Muy buena

    Reply
  7. Henry Dice

    May 27, 2020 at 2:32 am

    Saludos.
    La herramienta se ve bastante buena, el problema es que para windows no funciona,
    Hay alguna versión o por lo menos las variaciones que hay que realizar en la configuración.
    No soy experto y aunque he tratado de seguir los pasos, pero con las diferencias para windows, no he logrado que funcione.

    Grcias

    Reply
  8. Carlos Erick Robles Moran Dice

    March 19, 2021 at 8:07 pm

    El modelo es muy interesante; aunque no soy programador ni mucho menos. La utilidad que le estoy dando a este modelo, es desarrollar el procedimiento para dar mayor cuerpo a mis temas de investigación y a la elaboración de marcos teóricos. Por ejemplo, identificación y ponderación de palabras claves, sub-temas y contextualización.
    Gracias

    Reply
    • Luis Rojas Dice

      October 9, 2021 at 5:34 pm

      Hola Carlos. Ahora mismo estoy tomando conocimiento de la herramienta y al igual que tú, no soy programador pero sí quisiera utilizar la herramienta para mi trabajo de investigación, específicamente en el marco teórico que debo tener listo en breve.
      Si pudieras darme algunos alcances sobre el uso para investigadores no programadores, te lo agradecería muchísimo.

      Reply
  9. Juan Irigoin Torres Dice

    April 25, 2021 at 11:44 pm

    Excelente

    Reply
  10. eduardo Dice

    July 29, 2021 at 6:04 pm

    mejorar los prouctos y servicios, con el objetivo de ser conpetitivos , de permanecer en el negocio y de proporcionar puestos de trabajo

    Reply
  11. Tomas Bradanovic Dice

    November 29, 2022 at 10:58 pm

    Leyendo este artículo encontré un caso de uso que me podría servir: usar smart reader para analizar de manera dinámica los contenidos de mi blog. Tengo un blog con entradas diarias desde el año 2005, hoy tiene 6107 entradas, una entrada tipo contiene entre 500 y 1000 palabras, además de 69677 comentarios. Todo esto lo tengo en un corpus en formato xml (el archivo de respaldo) de 212 Mb más o menos.
    Muy frecuentemente tengo que buscar -basado en mi memoria- material entre este montón de contenidos y creo que para mi y los seguidores de mi blog una herramienta como Smart Reader podría ser muy útil
    ¿Puedo bajarla acceder a ella desde algún sitio online? No me quedó claro al leer el artículo

    Reply
  12. jose Cuasquer Dice

    October 4, 2023 at 3:12 pm

    No tengo conocimiento sobre phyton, podrian indicarme el link de donde poderlo descargar?

    Reply

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Primary Sidebar

SÍGUENOS

Suscríbete

Sobre este blog

Podemos describir al conocimiento abierto como aquel conocimiento que puede ser usado, reutilizado y compartido sin restricciones, ya que cuenta con las características tanto legales como tecnológicas para ser accedido por cualquier persona, en cualquier momento y en cualquier lugar del mundo.

En el blog 'Abierto al Público' exploramos los temas, recursos, iniciativas e impacto de la apertura de conocimiento a nivel global, prestando especial atención a lo que sucede en la región de América Latina y el Caribe. También abordamos los esfuerzos que lleva a cabo el Banco Interamericano de Desarrollo por apoyar la diseminación del conocimiento abierto y accionable que constantemente genera esta organización.

Buscar

Temas

AcademiaBID Acceso abierto Acceso a la información Análisis de datos Análisis de texto Big Data Cambio climático Ciencia Abierta Conceptos clave Conocimiento Abierto Coronavirus Creative Commons Credenciales digitales Crowdsourcing Código para el Desarrollo Datos geoespaciales Diseño instruccional El Rincón de Publicación Emprendimiento Eventos Gobierno abierto Género y diversidad Hackatones Inclusión digital Innovación abierta Inteligencia Artificial Lecciones aprendidas Metodologías MOOC Más leídos Números para el Desarrollo Objetivos de Desarrollo Sostenible Participación ciudadana Paso a paso Periodismo de datos Procesamiento del Lenguaje Natural Productos de conocimiento Protección de datos Proyectos de desarrollo Recursos accionables Solidaridad Taxonomía Trabajo en equipo Visualización de datos

Publicaciones similares

  • Mapas de conocimiento abierto: una interfaz visual para el conocimiento científico mundial
  • Inteligencia artificial: conceptos básicos y aplicaciones en el desarrollo
  • Análisis de “big data” para mejorar Cursos Masivos y Abiertos
  • ¿Cómo hacerse una idea de mil documentos con un clic? El modelado de tópicos para la gestión del conocimiento
  • Partícipes: la herramienta que facilita los procesos de rendición de cuentas

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

    Blogs escritos por empleados del BID:

    Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


    Blogs escritos por autores externos:

    Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

    Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

    Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



    Política de privacidad

    Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

    Banco Interamericano de Desarrollo

    Aviso Legal

    Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

    facebook
    twitter
    youtube
    En este sitio web se utilizan cookies para optimizar la funcionalidad y brindar la mejor experiencia posible. Si continúa visitando otras páginas, se instalarán cookies en su navegador.
    Para obtener más información al respecto, haga clic aquí.
    x
    Manage consent

    Privacy Overview

    This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
    Necessary
    Always Enabled
    Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
    Non-necessary
    Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
    SAVE & ACCEPT