Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Abierto al PúblicoBeyond BordersCaribbean Development TrendsCiudades SosteniblesEnergía para el FuturoEnfoque EducaciónFactor TrabajoGente SaludableGestión fiscalGobernarteIdeas MatterIdeas que CuentanIdeaçãoImpactoIndustrias CreativasLa Maleta AbiertaMoviliblogMás Allá de las FronterasNegocios SosteniblesPrimeros PasosPuntos sobre la iSeguridad CiudadanaSostenibilidadVolvamos a la fuente¿Y si hablamos de igualdad?Inicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Abierto al Público

  • INICIO
    • ¿Qué es el Conocimiento Abierto?
    • Sobre este blog
    • ¿Cómo suscribirse?
    • Pautas editoriales
  • CATEGORÍAS
    • Aprendizaje abierto
    • Código abierto
    • Datos abiertos
    • Gestión del conocimiento
    • Sistemas abiertos
  • AUTORES
  • Español
Word Embeddings

¿Qué son los word embeddings y para qué sirven?

July 2, 2021 by Bertha Briceño - Eugenia Fernandez Deja un comentario


4 minutos de lectura.

En los últimos tiempos ha habido grandes descubrimientos que han revolucionado el campo del procesamiento del lenguaje natural (PLN) y uno de ellos son los word embeddings (conocidos en español como: incrustación o incrustaciones de palabras). Esta técnica consiste en representar palabras con vectores de números, lo que ha permitido mejorar significativamente las tareas de descubrimiento de conocimiento y de recomendación de contenido. 

La teoría y algunos de los usos tempranos de esta técnica se remontan a los años 90; sin embargo, no se popularizó sino hasta el 2013 cuando un grupo de científicos de la computación desarrolló un método simple para la creación de word embeddings llamado word2vec. En este artículo explicamos brevemente de qué se trata esta técnica y cómo la utilizamos dentro del BID para proyectos de gestión de conocimiento.

Imagina una nube en el espacio compuesta por palabras. En esta nube, el lugar donde se encuentran las palabras es importante ya que determina su significado. Como vemos en la imagen arriba, la cual es una visualización de esta nube, tenemos en una sección palabras asociadas a animales y en otra encontramos palabras asociadas a alimentos. Dentro del grupo de palabras de animales, también vemos que las palabras asociadas a mascotas se encuentran más cercanas entre ellas, ej. gato y perro, en comparación con las palabras que hacen referencia a animales salvajes, ej. jirafa y elefante. No solo eso, en la imagen podemos observar otro tipo de patrones, por ejemplo, vemos que la distancia entre las palabras hombre y rey, es la misma que la distancia entre las palabras mujer y reina.

Esta estructura es lo que descubrieron los científicos de la computación que mencionamos anteriormente. Al entrenar a un algoritmo, usando un sinnúmero de documentos que contenían todo tipo de vocabulario, consiguieron representar palabras como vectores para determinar su lugar en el espacio y hacer aritmética con ellas.

¿Cómo se usan los word embeddings? 

Actualmente, la técnica es usada en diversas aplicaciones como sistemas de búsqueda, sistemas de recomendación, traducción de texto y muchas veces es el paso previo en el procesamiento de los datos de texto que posteriormente permite hacer tareas de clasificación de documentos, análisis de sentimiento, etc.

En la división de conocimiento y aprendizaje del BID, hemos usado los word embeddings para crear herramientas de búsqueda inteligente. Haciendo uso de más de 200,000 documentos operacionales y corporativos del BID, entrenamos un algoritmo para crear estos word embeddings en los 4 idiomas oficiales del banco, y como resultado obtuvimos un modelo que representa el lenguaje del desarrollo económico en América Latina y el Caribe.

Nuestra experiencia más reciente con esta herramienta fue durante el desarrollo de la plataforma Findit, cuya finalidad es conectar usuarios con fuentes distintas de conocimiento, incluyendo documentos y personas, y es también un motor de búsqueda de lecciones aprendidas recabadas a lo largo del ciclo de proyecto de préstamos del BID.

Dos tipos de búsqueda usando word embeddings

Por asociación de palabras

Encontrar palabras similares nos permite hacer búsquedas más comprensivas logrando resultados más completos. Por ejemplo, si un usuario busca Economía Digital, nuestro motor de búsqueda también busca las palabras asociadas y recomienda contenido que incluye todas estas palabras: 

Haciendo aritmética con las palabras para descubrir asociaciones

Otra forma de encontrar asociaciones entre palabras para enriquecer los resultados de búsqueda es haciendo aritmética con las palabras. Por ejemplo, usando nuestro modelo vemos que la suma de las palabras transporte y verde devuelve los siguientes términos: 

Ahora que ya hemos explicado qué son los word embeddings y algunas de sus aplicaciones, quizá te preguntes sobre los recursos que puedes utilizar para el entrenamiento de algoritmos. Existen diversas librerías para este fin y una de las más populares es gensim, que está escrita en Python. Si tienes un número grande de documentos que quieras explorar en tu área de trabajo, gensim incluye tutoriales que explican cómo entrenar el algoritmo paso a paso. La herramienta también cuenta con modelos pre entrenados que los puedes descargar y empezar a explorar en solo un par de líneas de código. 

¡Anímate a explorarla y coméntanos sobre los usos que le has dado a los word embeddings! 

Por Bertha Briceño, especialista líder en el Departamento de Conocimiento y Aprendizaje del BID, y Eugenia Fernandez, consultora en ciencia de datos en el sector de Conocimiento, Innovación y Comunicación del BID


Archivado Bajo:Gestión del conocimiento Etiquetado con:Conceptos clave, Inteligencia Artificial, Procesamiento del Lenguaje Natural

Bertha Briceño

Bertha es Especialista Líder en el Departamento de Conocimiento y Aprendizaje del BID, donde apoya el desarrollo de metodologías y herramientas de gestión del conocimiento para equipos operativos y ejecutores. Como funcionario de organismos multilaterales, ha trabajado en América Latina, Asia y África. Como empleada del gobierno colombiano, trabajó en el Banco Central y el Departamento de Planificación. Bertha tiene una maestría en desarrollo internacional de la Universidad de Harvard.

Eugenia Fernandez

Eugenia trabaja como consultora en ciencia de datos en el sector de Conocimiento, Innovación y Comunicación del BID. Estudió economía en la Universidad de Maryland e hizo una maestría en economía en la Universidad de San Pablo, Brasil. Luego de culminar su maestría se interesó por la programación y la ciencia de datos y comenzó a trabajar en esa área.

Reader Interactions

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Primary Sidebar

SIGUENOS

Suscríbete

Sobre este blog

Podemos describir al conocimiento abierto como aquel conocimiento que puede ser usado, reutilizado y compartido sin restricciones, ya que cuenta con las características tanto legales como tecnológicas para ser accedido por cualquier persona, en cualquier momento y en cualquier lugar del mundo.

En el blog "Abierto al Público" exploramos los temas, recursos, iniciativas e impacto de la apertura de conocimiento a nivel global, prestando especial atención a lo que sucede en la región de América Latina y el Caribe. También abordamos los esfuerzos que lleva a cabo el Banco Interamericano de Desarrollo por apoyar la diseminación del conocimiento abierto y accionable que constantemente genera esta organización.

Buscar

Explorar temas

AcademiaBID Acceso abierto Acceso a la información Análisis de datos Análisis de texto Big Data Cambio climático Ciencia Abierta Conceptos clave Conocimiento Abierto Coronavirus Creative Commons Credenciales digitales Crowdsourcing Código para el Desarrollo Datos geoespaciales Diseño instruccional El Rincón de Publicación Emprendimiento Eventos Gobierno abierto Género y diversidad Hackatones Inclusión digital Innovación abierta Inteligencia Artificial Lecciones aprendidas Metodologías MOOC Más leídos Números para el Desarrollo Objetivos de Desarrollo Sostenible Participación ciudadana Paso a paso Periodismo de datos Procesamiento del Lenguaje Natural Productos de conocimiento Protección de datos Proyectos de desarrollo Recursos accionables Solidaridad Trabajo en equipo Visualización de datos

Publicaciones similares

  • Incrustaciones (o incrustación) de palabras: la IA que navega texto
  • Aplicando el procesamiento del lenguaje natural para clasificar artículos del coronavirus
  • ¿Cómo hacerse una idea de mil documentos con un clic? El modelado de tópicos para la gestión del conocimiento
  • ¿Cómo aplicamos el procesamiento de lenguaje natural para conectar personas con conocimiento a través de la plataforma FindIt?
  • Cómo aplicamos la minería de texto para sistematizar los aprendizajes de proyectos de desarrollo

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

Blogs escritos por empleados del BID:

Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


Blogs escritos por autores externos:

Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



Política de privacidad

Copyright © 2023 · Magazine Pro on Genesis Framework · WordPress · Log in

Banco Interamericano de Desarrollo

Aviso Legal

Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

facebook
twitter
youtube
En este sitio web se utilizan cookies para optimizar la funcionalidad y brindar la mejor experiencia posible. Si continúa visitando otras páginas, se instalarán cookies en su navegador.
Para obtener más información al respecto, haga clic aquí.
x
Manage consent

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary
Always Enabled

Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.

Non-necessary

Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.

SAVE & ACCEPT