Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Abierto al públicoBeyond BordersCaribbean Development TrendsCiudades SosteniblesEnergía para el FuturoEnfoque EducaciónFactor TrabajoGente SaludableGestión fiscalGobernarteIdeas MatterIdeas que CuentanIdeaçãoImpactoIndustrias CreativasLa Maleta AbiertaMoviliblogMás Allá de las FronterasNegocios SosteniblesPrimeros PasosPuntos sobre la iSeguridad CiudadanaSostenibilidadVolvamos a la fuente¿Y si hablamos de igualdad?Inicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Abierto al público

  • INICIO
    • ¿Qué es el Conocimiento Abierto?
    • Sobre este blog
    • ¿Cómo suscribirse?
    • Pautas editoriales
  • CATEGORÍAS
    • Aprendizaje abierto
    • Código abierto
    • Datos abiertos
    • Gestión del conocimiento
    • Sistemas abiertos
  • AUTORES
  • Español

Incrustaciones (o incrustación) de palabras: la IA que navega texto

April 22, 2022 por Kyle Strand 7 Comentarios


4 minutos de lectura.

La mayoría de las técnicas modernas de inteligencia artificial (IA) se han desarrollado para trabajar con números, lo que puede presentar un desafío cuando se trata de trabajar con palabras y texto; para superar esta posible limitación, se ha creado una clase de algoritmos que convierten palabras en números, se conocen como word embeddings (en español referidas como incrustación de palabras o incrustaciones de palabras) y hacen que sea mucho más sencillo aprovechar las técnicas modernas de inteligencia artificial cuando se desea analizar el lenguaje natural.

¿Cómo funcionan las incrustaciones de palabras?

Los word embeddings incorporan un corpus de texto y generan un vector numérico para cada palabra del corpus, lo que crea un modelo de lenguaje que se puede utilizar para guiar una amplia gama de procesos de clasificación y recuperación de información, como los que llevan a cabo los motores de búsqueda como Google, Bing, etc. Los modelos de lenguaje constan de agrupaciones de vectores numéricos que representan similitudes sintácticas (contexto) y semánticas (significado) entre palabras. Si se usa un corpus de capacitación bilingüe, ciertos algoritmos también detectarán similitudes entre idiomas. Como ejemplo, un modelo de lenguaje que desarrollamos en el BID identificó que la palabra “metrics” (en inglés) estaba estrechamente relacionada con el término “indicadores clave de rendimiento” y “key performance indicators”, su equivalente en inglés.

A partir de aquí, hay todo tipo de sorprendentes matemáticas vectoriales que se pueden hacer para explorar e inferir relaciones entre palabras en el corpus, pero para este artículo nos centraremos en un ejemplo específico. Como gestor del conocimiento, descubrí que los word embeddings son inmensamente poderosos para comprender nuestro universo de conocimiento, esto incluye comprender la forma y el lenguaje en que una institución describe su trabajo, es decir, su jerga específica. En este contexto, las incrustaciones se convierten en un espejo que refleja el léxico institucional y este reflejo puede usarse para mejorar la forma en que se gestiona el conocimiento dentro de una institución. Este abordaje es particularmente útil para descifrar lo que un usuario espera encontrar al realizar una búsqueda que incluya resultados que tengan en cuenta dicha jerga.

Incrustación de palabras en la práctica

Existen numerosas formas de generar incrustaciones de palabras, y quizás la más conocida es el algoritmo Word2vec de código abierto que, como su nombre lo indica, convierte palabras en vectores. Word2vec, funcionó bien para la construcción del motor de búsqueda Findit en la mayoría de los casos. Sin embargo, ese algoritmo tenía una limitación crítica para nuestro propósito: no nos permitía inferir términos relacionados con las palabras que no fueron explícitamente mencionadas en nuestro corpus de entrenamiento original, y como tal no fueran ya parte del modelo. A pesar de que nuestro corpus de capacitación era bastante grande, con más de 2 mil millones de palabras, nos encontramos con algunas situaciones en las que este aspecto del modelo hizo que se quedara corto para nuestras necesidades. Por ejemplo, cuando un usuario buscaba “electromovilidad”, palabra que no estaba en el modelo de lenguaje, entonces no se mostraban resultados, ni siquiera relacionados a términos tan amplios como “movilidad”.

Para superar este desafío, experimentamos con otro algoritmo de código abierto: fastText. La principal diferencia con este algoritmo es que también genera vectores a nivel de letras en lugar de sólo a nivel de palabras. Esto implica que incluye en su mapeo a las subcadenas de las palabras que analiza. Como resultado, si el modelo entrenado por fastText encuentra una palabra que no incluyó en su entrenamiento inicial, buscará subcadenas de esa palabra y analizará si aparecen en el modelo. En general, funciona tan bien como word2vec, pero en nuestro contexto demostró tener dos ventajas importantes:

  1. Nos ayudó a obtener buenos resultados incluso cuando las consultas de los usuarios tuvieron simples errores ortográficos.
  2. Fue capaz de manejar las consultas de los usuarios con palabras que no forman parte del corpus de entrenamiento, o palabras que aún no están en el modelo de lenguaje, cuando hay suficientes similitudes a nivel de letras. Por ejemplo, fastText sería capaz de identificar una relación entre las palabras “metro” y “milímetro”, incluso si la palabra “metro” no estuviera en el modelo.

La implementación de fastText nos ayudó a llevar nuestra aplicación de búsqueda al siguiente nivel. ¡No podemos esperar a mostrarte lo que desarrollaremos con esta tecnología!

Por Kyle Strand, especialista senior en Gestión del Conocimiento dentro del Sector de Conocimiento, Innovación y Comunicación del BID.


Archivado Bajo:Gestión del conocimiento Etiquetado con:Conceptos clave, Inteligencia Artificial, Procesamiento del Lenguaje Natural

Kyle Strand

Kyle Strand es especialista senior en Gestión del Conocimiento y lidera la Biblioteca Felipe Herrera en el Sector de Conocimiento, Innovación y Comunicación del Banco Interamericano de Desarrollo (BID). Durante más de una década, su trabajo se ha centrado en iniciativas para mejorar el acceso al conocimiento tanto en el Banco como en la región de América Latina y el Caribe. Kyle diseñó el primer repositorio abierto de productos de conocimiento en el BID y encabezó la idea del software como un producto de conocimiento para ser reutilizado y adaptado con fines de desarrollo, lo que llevó al BID a convertirse en la primera entidad multilateral en reconocerlo formalmente como tal. Actualmente, Kyle coordina los servicios bibliotecarios dentro de la organización, apoya el ciclo de vida (creación, publicación y reutilización) de productos de conocimiento abierto (incluyendo publicaciones y datos abiertos), y promueve el uso de la inteligencia artificial y el procesamiento del lenguaje natural como piedra angular de la gestión del conocimiento en la era digital. Kyle también es editor ejecutivo de Abierto al Público, un blog en español que promueve la apertura y reutilización del conocimiento. Cuenta con una licenciatura de la Universidad de Michigan y una maestría de la Universidad George Washington.

Reader Interactions

Comments

  1. José+Sánchez+Narvaez Dice

    May 3, 2022 at 10:22 pm

    Tema muy interesante que debemos conocer un poco más a fondo

    Reply
  2. Luis+Bernardo+Ríos+Escobar Dice

    May 4, 2022 at 2:19 am

    Muy interesante, sería bueno exponer ejemplos aún más prácticos y fáciles de asimilar por la gente en general.
    Gracias.

    Reply
  3. Cynthia Bendlin Dice

    May 4, 2022 at 2:01 pm

    Muy interesante. Gracias

    Reply
  4. OSMAN+GONZALEZ Dice

    May 4, 2022 at 2:47 pm

    Felicitaciones por ayudarnos a comprender aun mas la Inteligencia Artificial y este nuevo servicio sobre incrustaciones de palabra que viene a fortalecer las relaciones comunicacionales en nuestras Sociedades

    Reply
  5. ANDERSON SOLIS M. Dice

    May 5, 2022 at 7:39 pm

    Excelente artículo.

    Reply
  6. Roig Dice

    May 6, 2022 at 1:30 pm

    Felicitaciones Kyle. Comparto su entusiasmo. Éxitos en la jornada por delante.

    Reply
  7. Jose Dice

    May 17, 2022 at 3:19 am

    La técnica desarrollada con la incrustación de palabras y la
    subsiguiente expresión de estas en un modelo vectorial o su traslado a el, abre un nuevo espacio al universo comunicacional y hasta puede permitir conocer otras fronteras del humano saber. Y porque no, una aproximación a la comprensión cabal de otras formas de comunicación que aún no comprendemos del todo, en otras especies que cohabitan con nosotros nuestro planeta.

    Reply

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Primary Sidebar

SÍGUENOS

Suscríbete

Sobre este blog

Podemos describir al conocimiento abierto como aquel conocimiento que puede ser usado, reutilizado y compartido sin restricciones, ya que cuenta con las características tanto legales como tecnológicas para ser accedido por cualquier persona, en cualquier momento y en cualquier lugar del mundo.

En el blog 'Abierto al Público' exploramos los temas, recursos, iniciativas e impacto de la apertura de conocimiento a nivel global, prestando especial atención a lo que sucede en la región de América Latina y el Caribe. También abordamos los esfuerzos que lleva a cabo el Banco Interamericano de Desarrollo por apoyar la diseminación del conocimiento abierto y accionable que constantemente genera esta organización.

Buscar

Temas

AcademiaBID Acceso abierto Acceso a la información Análisis de datos Análisis de texto Big Data Cambio climático Ciencia Abierta Conceptos clave Conocimiento Abierto Coronavirus Creative Commons Credenciales digitales Crowdsourcing Código para el Desarrollo Datos geoespaciales Diseño instruccional El Rincón de Publicación Emprendimiento Eventos Gobierno abierto Género y diversidad Hackatones Inclusión digital Innovación abierta Inteligencia Artificial Lecciones aprendidas Metodologías MOOC Más leídos Números para el Desarrollo Objetivos de Desarrollo Sostenible Participación ciudadana Paso a paso Periodismo de datos Procesamiento del Lenguaje Natural Productos de conocimiento Protección de datos Proyectos de desarrollo Recursos accionables Solidaridad Taxonomía Trabajo en equipo Visualización de datos

Publicaciones similares

  • ¿Qué son los word embeddings y para qué sirven?
  • ¿Cómo aplicamos el procesamiento de lenguaje natural para conectar personas con conocimiento a través de la plataforma FindIt?
  • Inteligencia artificial: conceptos básicos y aplicaciones en el desarrollo
  • Aplicando el procesamiento del lenguaje natural para clasificar artículos del coronavirus
  • ¿Cómo hacerse una idea de mil documentos con un clic? El modelado de tópicos para la gestión del conocimiento

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

    Blogs escritos por empleados del BID:

    Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


    Blogs escritos por autores externos:

    Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

    Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

    Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



    Política de privacidad

    Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

    Banco Interamericano de Desarrollo

    Aviso Legal

    Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

    facebook
    twitter
    youtube
    En este sitio web se utilizan cookies para optimizar la funcionalidad y brindar la mejor experiencia posible. Si continúa visitando otras páginas, se instalarán cookies en su navegador.
    Para obtener más información al respecto, haga clic aquí.
    x
    Manage consent

    Privacy Overview

    This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
    Necessary
    Always Enabled
    Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
    Non-necessary
    Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
    SAVE & ACCEPT