Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Abierto al PúblicoBeyond BordersCaribbean Development TrendsCiudades SosteniblesEnergía para el FuturoEnfoque EducaciónFactor TrabajoGente SaludableGestión fiscalGobernarteIdeas MatterIdeas que CuentanIdeaçãoImpactoIndustrias CreativasLa Maleta AbiertaMoviliblogMás Allá de las FronterasNegocios SosteniblesPrimeros PasosPuntos sobre la iSeguridad CiudadanaSostenibilidadVolvamos a la fuente¿Y si hablamos de igualdad?Inicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Abierto al Público

  • INICIO
    • ¿Qué es el Conocimiento Abierto?
    • Sobre este blog
    • ¿Cómo suscribirse?
    • Pautas editoriales
  • CATEGORÍAS
    • Aprendizaje abierto
    • Código abierto
    • Datos abiertos
    • Gestión del conocimiento
    • Sistemas abiertos
  • AUTORES
  • Español

Aplicando el procesamiento del lenguaje natural para clasificar artículos del coronavirus

July 2, 2020 by Bertha Briceño - Eugenia Fernandez 2 Comentarios


El procesamiento del Lenguaje Natural (o NLP en sus siglas en inglés) estudia el uso de computadoras para la interpretación y análisis del lenguaje humano (el lenguaje ‘natural’ como es hablado por las personas). Las posibles aplicaciones de NLP para facilitar la gestión de información son amplias y siguen emergentes.

A continuación, presentamos una aplicación de NLP para analizar texto: partiendo de un conjunto de artículos sobre el coronavirus de los blogs del BID, aplicaremos aprendizaje automático para descubrir subtemas dentro de estos artículos. Vale notar que NLP es un campo de estudio amplio y teje relaciones con diferentes áreas de estudio dentro de la inteligencia artificial. Antes de demostrar el ejemplo, vamos a ver un poco más cómo se encajan estos campos diferentes:

¿Qué tiene que ver el NLP con la Inteligencia Artificial?

El siguiente diagrama muestra la relación de NLP con Inteligencia Artificial (AI), Aprendizaje Automático (ML) y Aprendizaje Profundo (DL). Inteligencia Artificial se le llama a la inteligencia realizada por computadoras. El avance de la tecnología y la generación y acopio de grandes cantidades de datos en las últimas décadas resultó en una explosión en el uso de estas herramientas.

relacion-inteligencia-artificial-aprendizaje-automatico-aprendizaje-profundo-y-procesamiento-del-lenguaje-natural
El procesamiento del lenguaje natural solapa con otros campos de estudio dentro de la inteligencia artificial.

Dentro de la Inteligencia Artificial encontramos lo que se llama Aprendizaje Automático. Este es el uso de algoritmos para encontrar patrones en los datos. Mientras, el Aprendizaje Profundo es un campo dentro de Aprendizaje Automático que utiliza algoritmos llamados redes neuronales. Este es un campo que ha ganado cada vez más terreno dentro de Inteligencia Artificial dado que sus algoritmos continúan mejorando su eficiencia y desempeño y permitiendo realizar tareas con gran exactitud.

¿Y, cómo se aplica el Aprendizaje Automático? Un ejemplo práctico en tiempos de pandemia

Presentamos abajo algunos artículos relacionados algunos artículos relacionados al coronavirus de los blogs del BID. Si bien conocemos el tema común de estos, nos gustaría descubrir qué subtemas podemos encontrar, como por ejemplo educación, infraestructura, comercio, entre otros. Explicaremos paso a paso cómo descubrir estos temas a partir de nuestro conjunto de artículos:

Algunos ejemplos de los diferentes blogposts relacionados con el coronavirus que fueron analizados.

Primero, se extrae y prepara el texto:

Para extraer el texto podemos usar una técnica llamada web scraping dado que nuestro conjunto de documentos son artículos de una página de internet. Existen muchas librerías para aplicar esta herramienta, como BeautifulSoup en Python o rvest en R.

Luego debemos pre-procesar el texto. Estos son pasos para limpiar nuestro texto de ruido y estandarizar nuestro texto para que sea fácil de comparar. Algunos de estos pasos incluyen quitar las puntuaciones, transformar el texto a minúscula, o eliminar palabras frecuentes usadas en el lenguaje como preposiciones, artículos, etc. que por sí mismas no aportan mucha información, además de usar la raíz de las palabras.

Para ilustrar cómo funciona este proceso, tomemos como ejemplo uno de los artículos de coronavirus mencionados anteriormente.

Los pasos del análisis.

Es importante aclarar que no existe una receta infalible de pre-procesamiento de texto. Estos son solo algunos de los pasos comunes en el análisis de texto tradicional. Existe una amplia discusión en el área acerca de si algunos de estos pasos son realmente necesarios o si estamos perdiendo información valiosa para nuestro análisis al realizar esta limpieza. Depende mucho del texto que tenemos y el análisis que queremos hacer. Por ejemplo, si nuestro objetivo es hacer una nube de palabras para visualizar un texto, quitar las palabras comunes como preposiciones es importante. Por otra parte, si queremos clasificar sentimiento del texto usando algoritmos de redes neuronales, quizás estas palabras agreguen información y será mejor mantenerlas.

Segundo, el texto se convierte en una representación numérica:

Una vez que limpiamos nuestro texto, procedemos a aplicar algoritmos de aprendizaje automático para clasificar el texto. Dado que los algoritmos son ecuaciones matemáticas que entienden números, primero debemos conseguir una representación numérica de nuestro texto.

Hay diversas formas de representar texto con números. Uno de los modelos más simples se llama bolsa de palabras o bag of words (BoW) como es su nombre en inglés. Este modelo consiste en crear una bolsa o lista de palabras que existen en el conjunto de nuestro texto, en este caso nuestros artículos del coronavirus, y asociar cada palabra con cada uno de nuestros documentos. Para esta asociación podemos simplemente marcar si una palabra se encuentra en el texto o no, podemos contar las veces que aparece la palabra en el texto, entre otros. Este tipo de representación de texto si bien es simple, dado que ignora el orden de las palabras y la forma gramatical, nos permite ya realizar análisis complejos muchas veces con resultados robustos.

Debajo mostramos cómo haríamos esto para nuestro conjunto de artículos:

  1. Primero extraemos todas las palabras que se encuentran en el conjunto de documentos
  2. Luego construimos una matriz donde las columnas son cada una de las palabras que se encuentran en el conjunto de documentos y en las filas indicamos cuántas veces aparece esa palabra en el documento.

bolsa-de-palabras-nlp

A esta matriz se le llama matriz de términos y documentos.

Tercero, a clasificar:

A partir de esta representación ya estamos listos para clasificar nuestros documentos por temas. Una técnica comúnmente utilizada se llama Topic Modeling o modelaje por temas. Esta es una técnica de aprendizaje automático no supervisado que nos permite descubrir temas abstractos presentes en nuestro conjunto de documentos. Se le llama no supervisada dado que no conocemos los temas a priori y no es posible usar esa información para entrenar nuestro modelo, nuestro objetivo es descubrir qué y cuántos temas podemos extraer de nuestros artículos.

Una de las técnicas usadas para este tipo de modelos se llama Factorización no Negativa de Matrices o NMF como en su sigla en inglés. Este artículo explica los detalles técnicos de cómo funciona este método, pero resumidamente NMF consiste en una descomposición matricial con la propiedad de que las matrices no tienen elementos negativos. Partiendo de nuestra matriz de términos y documentos aplicamos NMF lo que nos permite descomponer la matriz en dos matrices, una que muestra la relación entre los temas y las palabras (llamada matriz W) y otra que muestra la relación entre los documentos y los temas (llamada matriz H). De esta forma podemos identificar las palabras más importantes para cada tema y a partir de ahí deducir de qué se trata cada tema.

En nuestro ejemplo, mirando con detenimiento la matriz W notamos que las palabras potencial, escuela, capital, maestra, y aprendizaje son importantes para el Tema 1 en cuanto las palabras médico, CTI, ventilador, máscara, y enfermeras son importantes para el Tema 2. Por lo que podemos pensar que el Tema 1 tiene que ver con educación y formación y el Tema 2 tiene que ver con hospitales y los servicios de salud. Luego pasando a la matriz H podemos identificar para cada documento qué temas son importantes.

Un desafío al aplicar esta técnica es que el número de temas es un parámetro que debemos pasarle al modelo. Si no conocemos cuántos temas aproximadamente se encuentran en nuestro grupo de documentos podemos probar diferentes números y evaluar los resultados. También existen métricas que nos permiten evaluar cuál número de temas mejor representa nuestros documentos, este artículo explica una de estas métricas.

¿Qué te parece las posibilidades que ofrece la inteligencia artificial? ¿Se te ocurren aplicaciones de estas técnicas para tu trabajo diario?

Por Bertha Briceño y Eugenia Fernandez del Sector de Conocimiento, Innovación y Communicación del BID.


Archivado Bajo:Gestión del conocimiento Etiquetado con:Coronavirus, Inteligencia Artificial, Paso a paso, Procesamiento del Lenguaje Natural

Bertha Briceño

Bertha es Especialista Líder en el Departamento de Conocimiento y Aprendizaje del BID, donde apoya el desarrollo de metodologías y herramientas de gestión del conocimiento para equipos operativos y ejecutores. Como funcionario de organismos multilaterales, ha trabajado en América Latina, Asia y África. Como empleada del gobierno colombiano, trabajó en el Banco Central y el Departamento de Planificación. Bertha tiene una maestría en desarrollo internacional de la Universidad de Harvard.

Eugenia Fernandez

Eugenia trabaja como consultora en ciencia de datos en el sector de Conocimiento, Innovación y Comunicación del BID. Estudió economía en la Universidad de Maryland e hizo una maestría en economía en la Universidad de San Pablo, Brasil. Luego de culminar su maestría se interesó por la programación y la ciencia de datos y comenzó a trabajar en esa área.

Reader Interactions

Comments

  1. Johanna Sànchez Dice

    April 5, 2021 at 8:38 pm

    Saludos le escribe Johanna Sànchez , me visto su blog por lo que quisiera de su ayuda de facilitarme LINK sobre temas de PNL con Inteligenica Artificial.

    Reply
  2. ana Dice

    October 24, 2021 at 7:10 am

    hola tengo una duda, de un corpus llamado reuters lo limpie, lematize, quite cerradas y signos que no son ascii, porsteriormete tengo ya mi bolsa de palabras pero quiero hacer la matriz de correlación, pero es una matriz enorme, como lo puedo hacer con tantos datos?? y no me interesa descartar alguno pero es necesario?? y como lo hago? es que no encuentro ejemplo alguno.

    Reply

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Primary Sidebar

SIGUENOS

Suscríbete

Sobre este blog

Podemos describir al conocimiento abierto como aquel conocimiento que puede ser usado, reutilizado y compartido sin restricciones, ya que cuenta con las características tanto legales como tecnológicas para ser accedido por cualquier persona, en cualquier momento y en cualquier lugar del mundo.

En el blog "Abierto al Público" exploramos los temas, recursos, iniciativas e impacto de la apertura de conocimiento a nivel global, prestando especial atención a lo que sucede en la región de América Latina y el Caribe. También abordamos los esfuerzos que lleva a cabo el Banco Interamericano de Desarrollo por apoyar la diseminación del conocimiento abierto y accionable que constantemente genera esta organización.

Buscar

Explorar temas

AcademiaBID Acceso abierto Acceso a la información Análisis de datos Análisis de texto Big Data Cambio climático Ciencia Abierta Conceptos clave Conocimiento Abierto Coronavirus Creative Commons Credenciales digitales Crowdsourcing Código para el Desarrollo Datos geoespaciales Diseño instruccional El Rincón de Publicación Emprendimiento Eventos Gobierno abierto Género y diversidad Hackatones Inclusión digital Innovación abierta Inteligencia Artificial Lecciones aprendidas Metodologías MOOC Más leídos Números para el Desarrollo Objetivos de Desarrollo Sostenible Participación ciudadana Paso a paso Periodismo de datos Procesamiento del Lenguaje Natural Productos de conocimiento Protección de datos Proyectos de desarrollo Recursos accionables Solidaridad Trabajo en equipo Visualización de datos

Publicaciones similares

  • Inteligencia artificial: conceptos básicos y aplicaciones en el desarrollo
  • Cómo aplicamos la minería de texto para sistematizar los aprendizajes de proyectos de desarrollo
  • ¿Cómo hacerse una idea de mil documentos con un clic? El modelado de tópicos para la gestión del conocimiento
  • Las métricas han hablado: presentamos los 5 artículos que más enganchan a nuestros lectores
  • ¿Qué son los word embeddings y para qué sirven?

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

Blogs escritos por empleados del BID:

Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


Blogs escritos por autores externos:

Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



Política de privacidad

Copyright © 2023 · Magazine Pro on Genesis Framework · WordPress · Log in

Banco Interamericano de Desarrollo

Aviso Legal

Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

facebook
twitter
youtube
En este sitio web se utilizan cookies para optimizar la funcionalidad y brindar la mejor experiencia posible. Si continúa visitando otras páginas, se instalarán cookies en su navegador.
Para obtener más información al respecto, haga clic aquí.
x
Manage consent

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary
Always Enabled

Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.

Non-necessary

Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.

SAVE & ACCEPT