Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Abierto al públicoBeyond BordersCaribbean Development TrendsCiudades SosteniblesEnergía para el FuturoEnfoque EducaciónFactor TrabajoGente SaludableGestión fiscalGobernarteIdeas MatterIdeas que CuentanIdeaçãoImpactoIndustrias CreativasLa Maleta AbiertaMoviliblogMás Allá de las FronterasNegocios SosteniblesPrimeros PasosPuntos sobre la iSeguridad CiudadanaSostenibilidadVolvamos a la fuente¿Y si hablamos de igualdad?Inicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Abierto al público

  • INICIO
    • ¿Qué es el Conocimiento Abierto?
    • Sobre este blog
    • ¿Cómo suscribirse?
    • Pautas editoriales
  • CATEGORÍAS
    • Aprendizaje abierto
    • Código abierto
    • Datos abiertos
    • Gestión del conocimiento
    • Sistemas abiertos
  • AUTORES
  • Español
    • English

¿Cómo aplicamos el procesamiento de lenguaje natural para conectar personas con conocimiento a través de la plataforma FindIt?

April 13, 2021 por Kyle Strand - Mónica Hernández 1 Comentario


8 minutos de lectura.

Si es difícil para una persona encontrar la información que busca, imagina lo complejo que puede ser enseñarles a los algoritmos de inteligencia artificial a identificar información relevante y presentarla cuando un usuario la necesita. Esto es justamente el desafío que encontramos al desarrollar FindIt: una plataforma inteligente que, muy al estilo Netflix, acerca el conocimiento que genera el Grupo BID, tanto a su personal como también a audiencias externas.  

Encaramos dos retos centrales en la creación de esta plataforma:

  • Ofrecer de manera proactiva recomendaciones de contenido a nuestros usuarios, requiriendo de ellos un mínimo esfuerzo y entregando la información incluso antes de que la pidan.
  • Reconocer el nivel de experiencia de nuestros colegas, con base en los datos que ya tenía la organización, para poder recomendar con quien conversar de un determinado tema.

Estamos orgullosos de que logramos vencer ambos desafíos, les contamos cómo.

¿Cómo enseñar a unos algoritmos a simular inteligencia?

Antes que todo hay que pensar como una persona. Cuando necesitas encontrar información sobre un tema puntual, lo piensas en forma de palabras y de conceptos, usando lenguaje natural. Entonces, para que un algoritmo, que es tan solo un conjunto finito de instrucciones, pueda siquiera responder con sugerencias relevantes a una solicitud, primero tiene que aprender a entender lenguaje humano, y aún más difícil en este caso, a comprender la jerga que usamos en el BID.   

En la actualidad existen varias tendencias en la implementación de la Inteligencia Artificial, y la del Procesamiento de Lenguaje Natural (PLN) es quizá la más dinámica de ellas. Esta se enfoca justamente en entender, interpretar y manipular el lenguaje humano y en esa línea, nosotros aplicamos 2 metodologías de PLN para diseñar 2 escuelas para algoritmos: una enfocada en ontología, y otra en deep learning.

La escuela enfocada en ontología

La primera lección para nuestros algoritmos es acerca de Taxonomía, que en esencia es una lista jerárquica de términos que permite la clasificación de la información en categorías. ¿Cómo luce una taxonomía? Imaginemos la estructura de un árbol, donde las ramas principales representan las categorías y las ramas secundarias las subcategorías.  Aquí pueden ver un ejemplo:

Aunque es compleja, una taxonomía no es suficiente para que nuestros algoritmos entiendan el lenguaje natural humano y tengan la capacidad de recomendar contenido relevante a nuestras audiencias. Creamos, entonces, una Ontología, que es un modelo sofisticado que contiene un conjunto de taxonomías, llamadas clases, que representan familias de conceptos, y que se relacionan entre ellas.

Para tener un mejor entendimiento lo explicamos a través del siguiente diagrama:

Este diagrama puede tener varias interpretaciones, a modo de ejemplo presentamos la siguiente:

Autor – Trabaja para Instituciones
Autor – Escribe contenido
Contenido – tiene uno o más temas
Tema – Está relacionado a sectores
Instituciones – Pertenece a uno o varios sectores
Contenido – Está relacionado a países y por consecuencia a regiones

En el caso de nuestros algoritmos, la ventaja de un modelo ontológico es que les enseña el lenguaje a través de conceptos, dichos conceptos pertenecen a una o varias categorías bien establecidas, y además tienen atributos que describen sus características. Al recibir un texto nuestros algoritmos pueden identificar el idioma, saben la definición de los términos que reconocen, entienden los sinónimos de los términos, y además hacen una interpretación consistente entre jergas, dialectos e idiomas. Pero más importante, entienden las relaciones entre los conceptos para producir recomendaciones y responder a preguntas complejas como:

  1. ¿Qué contenido ha publicado recientemente el BID que apunta a la transformación digital en la región de Latinoamérica y el Caribe?
  2. ¿Estamos trabajando en proyectos que utilizan Drones?
  3. ¿Qué políticas o acciones se han propuesto para la recuperación económica de la Pequeña y Mediana Empresa en LAC después de la pandemia?

Escalamos este proceso al nivel de 80,000 recursos digitales con la creación de una Gráfica de Conocimiento (Knowledge Graph) donde están desplegadas las conexiones que permiten a nuestros algoritmos hacer sus recomendaciones y aprender de su propia experiencia.

Interesante, pero ¿cuál es el resultado final? Así como Amazon te recomienda productos, FindIt y sus algoritmos infieren que si un usuario visita una publicación sobre iniciativas para aumentar la equidad de género, seguramente estará interesado en otros recursos relacionados al tema y los entrega en la misma interacción. Veámoslo en vivo, ¡haz clic en la siguiente imagen y empieza a vivir la experiencia FindIt!

La escuela enfocada en deep learning

En el campo de la inteligencia artificial , el aprendizaje profundo, mejor conocido como deep learning, es una de las áreas que más ha aumentado nuestra capacidad de crear máquinas inteligentes.  En esencia, el aprendizaje profundo se trata de la utilización de algoritmos inspirados por la estructura y función del cerebro humano.  Estas redes neuronales, así se denominan, procesan grandes cantidades de datos de manera iterativa para descubrir e inferir las conexiones entre los datos. El deep learning es capaz de realizar en segundos un volumen de análisis que a un ser humano tomaría varios meses e inclusive años.    

Para aplicar la metodología de la escuela enfocada en deep learning, juntamos más de 2.1 mil millones de palabras escritas en inglés y español sobre el trabajo que realiza el Grupo BID.  Estas palabras vinieron de fuentes tan diversas como publicaciones, descripciones de puestos de trabajo, estrategias, y propuestas de proyectos.  Analizamos esa gran cantidad de palabras con un algoritmo que genera word embeddings para crear un modelo que revela las relaciones entre conceptos en varias dimensiones. Es importante enfatizar que, más allá del español o el inglés estándar, estas asociaciones reflejan nuestra jerga, nuestra forma particular de hablar en la institución.  A modo de ejemplo, presentamos en la imagen de abajo algunas conexiones interesantes que devolvió el modelo:

La palabra “agricultura” está relacionada a “ganadería”, “silvicultura” y “minería”, cosa que es entendible, pero el modelo también muestra que la palabra “econometría” está estrechamente conectada a “agricultura”, lo que tiene sentido en el contexto del trabajo que realizamos.  “Agricultura” también está relacionada con “agrícola”, que esta cercanamente posicionada al término “El Salvador”, donde apoyamos proyectos agrícolas, que llamamos “operaciones”.  “Operaciones” a su vez, está conectada a términos que reflejan cómo nos referimos a nuestro trabajo operativo en el BID, términos como “prestamos”, “CTs “, y “fondos no reembolsables”.  Este es un proceso no supervisado, lo que significa que todas las conexiones entre términos están mapeadas por un algoritmo, sin necesidad de curación humana, a diferencia de la escuela enfocada en ontología que requiere supervisión manual regular. Aunque la gráfica de arriba muestra solo tres ejemplos, hay que recordar que el modelo completo está hecho a una escala de más de 2 mil millones de palabras.

Hay muchos usos potenciales para este modelo de lenguaje que revela el mapa de nuestra jerga. En el caso de FindIt, lo utilizamos para traer una nueva perspectiva al análisis de texto que la organización ya tenía sobre su personal, e identificar evidencia de los conceptos más estrechamente relacionados a nuestros colegas para revelar información sobre sus habilidades y experiencias. El resultado final es un buscador de conocimiento tácito, por así decirlo, que permite a los colegas conectarse de manera fácil y rápida para responder a una pregunta, compartir experiencias relevantes o aportar determinadas habilidades a un proyecto o equipo. Todo está impulsado por ese modelo de lenguaje.

Mira uno de los resultados cuando buscas conocimiento abierto. ¡Buen trabajo FindIt!

Complementariedad: dos modelos es mejor que uno

FindIt se graduó de ambas escuelas: la enfocada en ontología y la enfocada en deep learning. El aprendizaje que obtuvo lo ha aplicado para entender, clasificar, y ordenar recursos digitales, así como para inferir qué conocimiento tiene una persona.  Como resultado, ahora, frente a una solicitud puntual planteada en palabras, FindIt contextualiza y sugiere información relevante del universo del conocimiento del Grupo BID.  Esta habilidad de conexión entre usuarios y conocimiento aumenta nuestra capacidad de colaboración, y genera mayor utilización del conocimiento, lo que nos lleva un paso más allá en el camino de la transformación digital. 

Por Kyle Strand, especialista senior en gestión del conocimiento y Mónica Hernández, consultora en el Sector de Conocimiento, Innovación y Comunicación del BID.


Archivado Bajo:Gestión del conocimiento Etiquetado con:Procesamiento del Lenguaje Natural

Kyle Strand

Kyle Strand es especialista senior en Gestión del Conocimiento y lidera la Biblioteca Felipe Herrera en el Sector de Conocimiento, Innovación y Comunicación del Banco Interamericano de Desarrollo (BID). Durante más de una década, su trabajo se ha centrado en iniciativas para mejorar el acceso al conocimiento tanto en el Banco como en la región de América Latina y el Caribe. Kyle diseñó el primer repositorio abierto de productos de conocimiento en el BID y encabezó la idea del software como un producto de conocimiento para ser reutilizado y adaptado con fines de desarrollo, lo que llevó al BID a convertirse en la primera entidad multilateral en reconocerlo formalmente como tal. Actualmente, Kyle coordina los servicios bibliotecarios dentro de la organización, apoya el ciclo de vida (creación, publicación y reutilización) de productos de conocimiento abierto (incluyendo publicaciones y datos abiertos), y promueve el uso de la inteligencia artificial y el procesamiento del lenguaje natural como piedra angular de la gestión del conocimiento en la era digital. Kyle también es editor ejecutivo de Abierto al Público, un blog en español que promueve la apertura y reutilización del conocimiento. Cuenta con una licenciatura de la Universidad de Michigan y una maestría de la Universidad George Washington.

Mónica Hernández

Mónica Hernández é consultora do Setor de Conhecimento, Inovação e Comunicação do BID. Em 2017, ingressou como Gerente de Projetos com a tarefa de liderar o desenvolvimento de uma solução que melhorasse a localização dos produtos de conhecimento produzidos pelo BID, com o uso de algoritmos de inteligência artificial e tecnologias semânticas. Monica é profissional de Ciência da Computação com especialização em Gestão de Tecnologia da Informação.

Reader Interactions

Comments

  1. Walquiria Dice

    July 14, 2021 at 8:53 pm

    Hola! Soy bibliotecaria y en el área de control de lenguaje trabajamos con modelos ontológicos. Lo nuevo para la materia es el deep learning
    saludos

    Reply

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Primary Sidebar

SÍGUENOS

Suscríbete

Sobre este blog

Podemos describir al conocimiento abierto como aquel conocimiento que puede ser usado, reutilizado y compartido sin restricciones, ya que cuenta con las características tanto legales como tecnológicas para ser accedido por cualquier persona, en cualquier momento y en cualquier lugar del mundo.

En el blog 'Abierto al Público' exploramos los temas, recursos, iniciativas e impacto de la apertura de conocimiento a nivel global, prestando especial atención a lo que sucede en la región de América Latina y el Caribe. También abordamos los esfuerzos que lleva a cabo el Banco Interamericano de Desarrollo por apoyar la diseminación del conocimiento abierto y accionable que constantemente genera esta organización.

Buscar

Temas

AcademiaBID Acceso abierto Acceso a la información Análisis de datos Análisis de texto Big Data Cambio climático Ciencia Abierta Conceptos clave Conocimiento Abierto Coronavirus Creative Commons Credenciales digitales Crowdsourcing Código para el Desarrollo Datos geoespaciales Diseño instruccional El Rincón de Publicación Emprendimiento Eventos Gobierno abierto Género y diversidad Hackatones Inclusión digital Innovación abierta Inteligencia Artificial Lecciones aprendidas Metodologías MOOC Más leídos Números para el Desarrollo Objetivos de Desarrollo Sostenible Participación ciudadana Paso a paso Periodismo de datos Procesamiento del Lenguaje Natural Productos de conocimiento Protección de datos Proyectos de desarrollo Recursos accionables Solidaridad Taxonomía Trabajo en equipo Visualización de datos

Publicaciones similares

  • Incrustaciones (o incrustación) de palabras: la IA que navega texto
  • Aplicando el procesamiento del lenguaje natural para clasificar artículos del coronavirus
  • ¿Qué son los word embeddings y para qué sirven?
  • ¿Cómo hacerse una idea de mil documentos con un clic? El modelado de tópicos para la gestión del conocimiento
  • ¿Qué es el Procesamiento de Lenguaje Natural y cómo ponerlo en práctica con recursos abiertos?

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

    Blogs escritos por empleados del BID:

    Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


    Blogs escritos por autores externos:

    Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

    Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

    Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



    Política de privacidad

    Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

    Banco Interamericano de Desarrollo

    Aviso Legal

    Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

    facebook
    twitter
    youtube
    En este sitio web se utilizan cookies para optimizar la funcionalidad y brindar la mejor experiencia posible. Si continúa visitando otras páginas, se instalarán cookies en su navegador.
    Para obtener más información al respecto, haga clic aquí.
    x
    Manage consent

    Privacy Overview

    This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
    Necessary
    Always Enabled
    Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
    Non-necessary
    Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
    SAVE & ACCEPT