Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Abierto al públicoBeyond BordersCaribbean Development TrendsCiudades SosteniblesEnergía para el FuturoEnfoque EducaciónFactor TrabajoGente SaludableGestión fiscalGobernarteIdeas MatterIdeas que CuentanIdeaçãoImpactoIndustrias CreativasLa Maleta AbiertaMoviliblogMás Allá de las FronterasNegocios SosteniblesPrimeros PasosPuntos sobre la iSeguridad CiudadanaSostenibilidadVolvamos a la fuente¿Y si hablamos de igualdad?Inicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Abierto al público

  • INICIO
    • ¿Qué es el Conocimiento Abierto?
    • Sobre este blog
    • ¿Cómo suscribirse?
    • Pautas editoriales
  • CATEGORÍAS
    • Aprendizaje abierto
    • Código abierto
    • Datos abiertos
    • Gestión del conocimiento
    • Sistemas abiertos
  • AUTORES
  • Español

¿Cómo hacerse una idea de mil documentos con un clic? El modelado de tópicos para la gestión del conocimiento

July 22, 2020 por Kyle Strand - Daniela Collaguazo Deja un comentario


En un contexto cada vez más virtual, un reto fundamental en la gestión del conocimiento es la extracción de valor a una creciente cantidad de documentos que se producen día a día. Para facilitar el análisis de esta información, se puede utilizar técnicas de procesamiento de lenguaje natural.

En esta entrada te contamos sobre una de las más usadas: la “detección de tópicos” o de expresión alternativa, el “modelado de tópicos” (topic modeling en inglés). Hay una leve diferencia entre ambos términos: la detección de tópicos se trata de un ejercicio conceptual de identificar patrones de significado común en un conjunto de textos o documentos. El modelado de tópicos se trata de las herramientas informáticas que permiten la detección automática de estos patrones. Los ejemplos de aplicación varían mucho, desde entender la composición latente en un corpus, como es el ejemplo del contenido de este sitio blog, asimismo como la detección de los temas implícitos en un conjunto de documentos científicos durante la producción de un marco teórico, como la clasificación de artículos sobre un tema particular como el coronavirus. 

La importancia de automatizar la detección de tópicos 

Para analizar un corpus, cualquier información adicional o metadatos que tengamos nos facilita el trabajo. Ejemplos de metadatos son: autores, fecha de publicación, editorial, palabras clave, resúmenes o abstractos. Asimismo, una clasificación previamente asignada a un documento le ayuda a tener una idea a alguien que mira el documento por primera vez. 

En algunos casos, los documentos con los que trabajamos ya traen parte de esta información adicional. Sin embargo, en muchas ocasiones le corresponde al analista utilizar su conocimiento e intuición para entender de qué trata un documento. Y aunque para un ser humano, generar conceptos no es una tarea muy compleja, su entendimiento va a estar siempre condicionado a sus propias limitaciones cognitivas. Adicionalmente, como nos podremos imaginar, categorizar o clasificar documentos a gran escala y por un largo período de tiempo puede resultar una tarea ineficiente. Las técnicas del modelado de tópicos nos ayudan precisamente a descubrir de manera automática dichos tópicos o temas latentes en un conjunto de textos que están sin categorizar. 

La intuición detrás del modelado de tópicos 

Los documentos representan “bolsas de palabras”, las cuales pueden ser relevantes a una o varias áreas de conocimiento (cada área entiéndase como un tópico). Por tanto, cada documento tiene cierto porcentaje de palabras que con mayor o menor frecuencia aparecen en mayor o menor grado, en diversos tópicos. A estos tópicos los llamamos latentes porque sabemos que están en un corpus de documentos y el reto está en encontrarlos. 

Por ejemplo, para la gestión de un blog como Abierto al Público, cada entrada que publicamos tiene que ser categorizada y etiquetada. Una parte importante de esta tarea consiste en determinar los criterios de categorización y etiquetado que se basen en las ideas y palabras reflejadas en su contenido.  

Entre la validación y la detección

Imaginemos que después de 5 años de la existencia de un blog, percibimos la necesidad de actualizar las categorías que se usan para clasificar cada una de sus entradas (como fue nuestro propio caso, hace poco).  

Primero, para determinar los patrones en los temas que tratamos en los documentos o entradas, revisamos una selección de estos documentos y caemos en cuenta de que frases como “aprendizaje en línea”, “MOOCs” y “capacitación virtual” se repiten con frecuencia en varios documentos.  Al terminar, se concluirá entonces que hay suficiente contenido para validar que la categoría “Aprendizaje Abierto” sigue siendo muy relevante.   

Mientras avanzamos en la lectura de más entradas, encontramos otro patrón que hubiera sido muy difícil encontrar de manera manual. En varias entradas, categorizadas bajo múltiples temas, aparecen conceptos como “software”, “código fuente” y “open source”, y así determinamos que hay suficientes para merecer la creación de una nueva categoría “Código Abierto” y reasignar el contenido heredado dentro de esta nueva categoria. Y esta es la intuición detrás de la detección de tópicos.

Aplicando algoritmos de Detección de Tópicos 

Tal como mencionamos en la entrada “¿Cómo se compara un iceberg al funcionamiento de la Inteligencia Artificial?” una gran parte del éxito en la aplicación de cualquier algoritmo es el trabajo que se hace con los datos de entrada. El caso de los algoritmos de Detección de Tópicos no es la excepción. Comúnmente la limpieza de texto incluye la eliminación de palabras muy frecuentes”, o stopwords, que no informan mucho. Por ejemplo, artículos, conjunciones, preposiciones, etc. Adicionalmente algunos científicos de datos sugieren devolver las palabras a su raíz, por ejemplo, los verbos conjugados: “comiendo” y “comeré” se transformarán en el verbo raíz “comer”, un proceso conocido como stemming.  Una vez tengamos limpios los datos de entrada, pasaremos a la fase de entrenamiento del algoritmo, cuyo resultado será por un lado la distribución de palabras y por otro la distribución de los tópicos en los documentos.  

Retos asociados 

Uno de los retos más grandes en general de la aplicación de algoritmos no supervisados en el Procesamiento del Lenguaje Natural es la evaluación de los resultados. La solución consiste en hacer varias pruebas y validar los resultados a través de: a) la inclusión de un humano para que con su sentido común evalúe los resultados, o b) la utilización de métricas para hacer un análisis matemático de los resultados. Algunas métricas disponibles para analizar los resultados del Detección de Tópicos son la similitud coseno u otras ecuaciones como la de perplejidad y coherencia. Evidentemente, y si los recursos lo permiten la evaluación ideal es la mezcla de ambas metodologías, la evaluación ideal es la mezcla de ambas metodologías. 

Otro reto está relacionado con la cantidad mínima de documentos que se requiere para aplicar estos algoritmos. Expertos recomiendan que se cuente con por lo menos con una muestra de 1,000 casos.  

Recursos disponibles para experimentar con el Detección de Tópicos 

Aunque existen varios algoritmos para hacer Detección de Tópicos, uno de los más famosos es el Latent Dirichlet Allocation (LDA). Hay varias librerías de código abierto con las que puedes empezar a experimentar con el LDA. Una de las más famosas es la librería para Python, Gensim. Asimismo, está disponible la librería GraphLab Create que pone a disposición un módulo que incluye la configuración de parámetros como alpha y beta. Otras famosas librerías son las librerías LDA y un módulo incluido en Sklearn: LatentDirchlet Allocation. Y para visualizar los resultados se puede utilizar la librería pyLDAvis. 

Si lo tuyo es explorar casos de aplicación te recomendamos revises algunas de las soluciones propuestas en varios de los retos de Procesamiento de Lenguaje Natural en Kaggle. Por ejemplo, podrías buscar inspiración en algunas de las soluciones con Detección de Tópicos para resolver el reto planteado en el marco del COVID-19.  


Archivado Bajo:Gestión del conocimiento Etiquetado con:Conceptos clave, Procesamiento del Lenguaje Natural, Recursos accionables

Kyle Strand

Kyle Strand es especialista senior en Gestión del Conocimiento y lidera la Biblioteca Felipe Herrera en el Sector de Conocimiento, Innovación y Comunicación del Banco Interamericano de Desarrollo (BID). Durante más de una década, su trabajo se ha centrado en iniciativas para mejorar el acceso al conocimiento tanto en el Banco como en la región de América Latina y el Caribe. Kyle diseñó el primer repositorio abierto de productos de conocimiento en el BID y encabezó la idea del software como un producto de conocimiento para ser reutilizado y adaptado con fines de desarrollo, lo que llevó al BID a convertirse en la primera entidad multilateral en reconocerlo formalmente como tal. Actualmente, Kyle coordina los servicios bibliotecarios dentro de la organización, apoya el ciclo de vida (creación, publicación y reutilización) de productos de conocimiento abierto (incluyendo publicaciones y datos abiertos), y promueve el uso de la inteligencia artificial y el procesamiento del lenguaje natural como piedra angular de la gestión del conocimiento en la era digital. Kyle también es editor ejecutivo de Abierto al Público, un blog en español que promueve la apertura y reutilización del conocimiento. Cuenta con una licenciatura de la Universidad de Michigan y una maestría de la Universidad George Washington.

Daniela Collaguazo

Nacida en Quito, Ecuador en abril de 1984. Daniela culminó sus estudios de pregrado en la Universidad San Francisco de Quito. Posteriormente, vivió 3 años en Alemania, en donde cursó su maestría en Gestión de la Tecnología e Innovación en la Universidad Técnica de Brandenburgo Cottbus-Senftenberg. Al culminar sus estudios, Daniela enseñó Tecnologías Web en la Facultad de Arquitectura Diseño y Artes en la Pontificia Universidad Católica del Ecuador. Actualmente, se encuentra colaborando con el BID como consultora en proyectos relacionados con aprendizaje automático y procesamiento del lenguaje natural. Es una apasionada del deporte y ha participado en varias competencias en su país natal, entre ellas una de aguas abiertas y los dos primeros triatlones de media distancia.

Reader Interactions

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Primary Sidebar

SÍGUENOS

Suscríbete

Sobre este blog

Podemos describir al conocimiento abierto como aquel conocimiento que puede ser usado, reutilizado y compartido sin restricciones, ya que cuenta con las características tanto legales como tecnológicas para ser accedido por cualquier persona, en cualquier momento y en cualquier lugar del mundo.

En el blog 'Abierto al Público' exploramos los temas, recursos, iniciativas e impacto de la apertura de conocimiento a nivel global, prestando especial atención a lo que sucede en la región de América Latina y el Caribe. También abordamos los esfuerzos que lleva a cabo el Banco Interamericano de Desarrollo por apoyar la diseminación del conocimiento abierto y accionable que constantemente genera esta organización.

Buscar

Temas

AcademiaBID Acceso abierto Acceso a la información Análisis de datos Análisis de texto Big Data Cambio climático Ciencia Abierta Conceptos clave Conocimiento Abierto Coronavirus Creative Commons Credenciales digitales Crowdsourcing Código para el Desarrollo Datos geoespaciales Diseño instruccional El Rincón de Publicación Emprendimiento Eventos Gobierno abierto Género y diversidad Hackatones Inclusión digital Innovación abierta Inteligencia Artificial Lecciones aprendidas Metodologías MOOC Más leídos Números para el Desarrollo Objetivos de Desarrollo Sostenible Participación ciudadana Paso a paso Periodismo de datos Procesamiento del Lenguaje Natural Productos de conocimiento Protección de datos Proyectos de desarrollo Recursos accionables Solidaridad Taxonomía Trabajo en equipo Visualización de datos

Publicaciones similares

  • Aplicando el procesamiento del lenguaje natural para clasificar artículos del coronavirus
  • ¿Qué son los word embeddings y para qué sirven?
  • Aplicando el modelado de tópicos a la gestión del conocimiento en linea
  • Cómo aplicamos la minería de texto para sistematizar los aprendizajes de proyectos de desarrollo
  • Conoce el Clasificador de Datos Atípicos

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

    Blogs escritos por empleados del BID:

    Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


    Blogs escritos por autores externos:

    Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

    Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

    Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



    Política de privacidad

    Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

    Banco Interamericano de Desarrollo

    Aviso Legal

    Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

    facebook
    twitter
    youtube
    En este sitio web se utilizan cookies para optimizar la funcionalidad y brindar la mejor experiencia posible. Si continúa visitando otras páginas, se instalarán cookies en su navegador.
    Para obtener más información al respecto, haga clic aquí.
    x
    Manage consent

    Privacy Overview

    This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
    Necessary
    Always Enabled
    Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
    Non-necessary
    Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
    SAVE & ACCEPT