Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Abierto al PúblicoBeyond BordersCaribbean Development TrendsCiudades SosteniblesEnergía para el FuturoEnfoque EducaciónFactor TrabajoGente SaludableGestión fiscalGobernarteIdeas MatterIdeas que CuentanIdeaçãoImpactoIndustrias CreativasLa Maleta AbiertaMoviliblogMás Allá de las FronterasNegocios SosteniblesPrimeros PasosPuntos sobre la iSeguridad CiudadanaSostenibilidadVolvamos a la fuente¿Y si hablamos de igualdad?Inicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Abierto al Público

  • INICIO
    • ¿Qué es el Conocimiento Abierto?
    • Sobre este blog
    • ¿Cómo suscribirse?
    • Pautas editoriales
  • CATEGORÍAS
    • Aprendizaje abierto
    • Código abierto
    • Datos abiertos
    • Gestión del conocimiento
    • Sistemas abiertos
  • AUTORES
  • Español
    • English
topic-modeling-seo

Aplicando el modelado de tópicos a la gestión del conocimiento en linea

August 10, 2020 by Kyle Strand - Daniela Collaguazo - Michelle Marshall Deja un comentario


Cómo el modelado de tópicos nos ayudó a reestructurar el blog Abierto al Público y aumentar su visibilidad en resultados de búsquedas

Cuando se trata de la gestión del conocimiento, y en el caso del conocimiento abierto en particular, el principal desafío ya no parece ser la falta de información. Las personas con acceso al Internet, tienen en sus manos el potencial de conectarse con una gran cantidad de conocimiento, y cada vez más, en formatos de acceso gratuito. Dicho esto, la sistematización, navegación y síntesis continua de tanta información es uno de los dilemas actuales relacionados con conectar los recursos más relevantes y accionables con quiénes los buscan. Esto va más allá de un esfuerzo meramente estético, la promoción o el marketing. Como hemos observado recientemente en todo el mundo, la llamada “infodemia” exige con urgencia nuevas formas de apoyar que las personas puedan encontrar el conocimiento que buscan, y que los creadores de contenido asuman una mayor responsabilidad de presentar el conocimiento y la información de manera clara y completa a sus lectores.

Por estas razones, el BID está constantemente explorando y perfeccionando técnicas para conectar mejor la región de América Latina y el Caribe con conocimiento abierto de calidad. Un ejemplo muy particular de esto, de los muchos esfuerzos en curso, incluye el trabajo que ha realizado nuestro equipo para mejorar la organización del contenido publicado aquí en Abierto al Público. En este artículo, compartimos algunos de los aprendizajes sobre cómo hemos utilizado técnicas como el modelado de tópicos y la optimización para motores de búsqueda (SEO) para abordar el trabajo de la gestión de contenido de manera más eficiente, con la motivación de guiar mejor a los lectores a encontrar el contenido y los recursos de aprendizaje más adecuados. significativo y práctico para ellos. Esperamos que también pueda utilizar estas técnicas para organizar mejor y compartir sus conocimientos.

Un gran hito, nuevos temas emergentes y mucho contenido

Abierto al Público es, ante todo, un recurso del BID para compartir aprendizajes sobre el conocimiento abierto. Como recientemente celebramos más de cinco años de estar en línea, el blog ha publicado más de 500 artículos relacionados con todo lo abierto en relación con el desarrollo social y económico en América Latina y el Caribe, a través de temas como el conocimiento abierto, los datos abiertos, el gobierno abierto, la innovación abierta y, más recientemente, la tecnología de código abierto.

Con tantos temas, ¿cómo navegar y darle sentido a todo, especialmente para visitantes que llegan por primera vez? Para nosotros, fue un momento importante para reflexionar sobre esta cuestión, por varias razones. Por un lado, nuestra cobertura relacionada con el movimiento abierto siguió evolucionando más allá de las categorías originales del blog. Necesitábamos un nuevo método para agrupar contenido de una manera que tuviera sentido para los lectores y, al mismo tiempo, ofreciera flexibilidad para incorporar contenido futuro a medida que continuamos creciendo y siguiendo nuevas líneas de conversación. En segundo lugar, el volumen de contenido desalienta la clasificación y reordenación manual. Ésta es una consideración importante porque queremos ser eficientes en el uso de nuestro tiempo y recursos.

Con esto en mente, queríamos ver cómo la inteligencia artificial y el procesamiento del lenguaje natural podrían desempeñar un papel para complementar nuestra estrategia y agilizar la tarea de ordenar y categorizar nuestro contenido de una manera equilibrada y coherente – un esfuerzo que de otro modo hubiera sido totalmente manual.

Centrando en el SEO: mapeo de conocimiento que beneficie tanto a las personas como a los motores de búsqueda

Al igual que en el debate sobre las buenas prácticas para los datos abiertos, también es fundamental para una buena gestión del conocimiento y el contenido que tanto las personas como las máquinas puedan encontrar y seguir los temas relacionados.

Por esta razón, comprender la ciencia detrás de la optimización de motores de búsqueda se convirtió en un punto focal importante de nuestra estrategia de gestión del contenido. Para mejorar la forma en que aparece su contenido en los resultados de búsqueda, los motores de búsqueda como Google escanean constantemente la web para evaluar los mapas del sitio de diferentes proveedores de contenido y tratar de comprender de qué se trata ese contenido, al mismo tiempo que toman una determinación sobre la calidad y relevancia de ese información a la búsqueda de un usuario. Debido a esto, aprendimos lo importante que es mantener categorías y etiquetas consistentes, así como también mantener vínculos relevantes entre contenido relacionado.

Cuando se trata de categorías, cada artículo solo debe pertenecer a una, como la rama de un árbol o el eje en el centro de una rueda. La cantidad de categorías debe estar aproximadamente equilibrada en términos de la cantidad de contenido en cada una, y una lógica clara debe conectar el contenido a su categoría y al mismo tiempo diferenciarlo de las otras categorías.

Aprende más sobre el rol de las categorías y la agrupación de contenidos en el SEO.

Pero, ¿cuántas categorías necesitaríamos para organizar tanto contenido? Esta fue nuestra siguiente pregunta. Necesitábamos comparar y evaluar nuestras opciones sin demasiada clasificación manual. Es en este contexto donde el modelado de tópicos adquiere una gran relevancia.

Cómo utilizamos el modelado de tópicos para identificar y crear categorías de contenido

El modelado de tópicos es una de las varias técnicas de procesamiento del lenguaje natural dentro del campo más amplio de la inteligencia artificial.

Se puede aplicar para identificar automáticamente temas, patrones o agrupaciones subyacentes, ocultos o latentes dentro de grandes volúmenes de texto, también conocido en su conjunto como el “corpus”. Como hemos aprendido y compartido de experiencias anteriores relacionadas con la Inteligencia Artificial, es clave recordar que el éxito depende en gran medida de la cantidad y calidad de los datos que se utilizarán. En el caso del modelado de tópicos, ese mismo recordatorio también es válido.

En el caso de Abierto al Público, primero reunimos alrededor de 500 artículos (el corpus) en un solo archivo csv para su análisis. Esto se puede lograr utilizando técnicas de raspado web o de otro modo, dependiendo de su acceso a las fuentes de archivos originales y sus formatos.

El siguiente paso fue limpiar los datos para maximizar el énfasis en el contenido temático. Por ejemplo, eliminamos la puntuación y las palabras que no proporcionaban mucha información comparativa sobre el contenido del texto, como preposiciones, conjunciones, etc. Las técnicas de programación en Python pueden ayudar a facilitar este proceso.

Después de limpiar y preparar el conjunto de datos, comenzamos el proceso iterativo de entrenamiento del algoritmo de modelado de temas. Esto significó ejecutar el conjunto de datos del corpus limpiado a través de un motor. Cada iteración consistió en asignar un número arbitrario diferente de cubos, o temas, en los que clasificar los términos encontrados en el corpus. El resultado proporcionaría las agrupaciones de cada artículo individual junto con una probabilidad de confianza sobre qué tan bien ese contenido coincidía con el resto de la información en la misma agrupación.

¿Qué herramientas están disponibles para implementar el modelado de tópicos?

Hay varias herramientas que te pueden ayudar a ejecutar el ejercicio de modelado de temas, tales como:

  • La biblioteca Gensim desarrollada en código abierto para python o el paquete de modelos tópicos para R.
  • Aunque no son abiertos, hay otros servicios disponibles que te permiten realizar el modelado de temas, incluso con una experiencia de codificación limitada y costo razonable. Dos ejemplos de estas alternativas son Amazon Comprehend AWS Service y el módulo LDA (LatentDirichtletAllocation) incluido en Azure Machine Learning Studio.

Interpretando los resultados

Analizar los resultados de un ejercicio de modelado de temas puede ser una tarea muy subjetiva, por lo que es importante involucrar a expertos en la materia en el proceso. Es importante realizar una validación cruzada de los patrones potenciales que la máquina ha interpretado con una validación más humana. Jugamos con combinaciones que iban desde 3 temas hasta 10 temas, y comparamos cuidadosamente los resultados de cada salida, hasta que finalmente nos concentramos en el equilibrio ofrecido en los resultados del rango de 5 temas, que llegó a interpretarse como estas categorías:

  • Aprendizaje Abierto
  • Código Abierto
  • Datos Abiertos
  • Gestión del Conocimiento
  • Sistemas Abiertos

Una vez que llegamos a ese punto, repetimos el proceso de modelado de temas con el contenido dentro de cada una de las categorías para identificar subtemas o grupos más específicos. Esta segunda ronda nos ayudó a crear contenido nuevo que pudiera resaltar el contenido dentro de cada categoría y sus subtemas relacionados. A partir de ahí, también podríamos realizar las validaciones y ajustes finales en cuanto a etiquetas específicas o incorporando frases clave específicas en relación al SEO.

Aplicar e implementar los resultados en nuestra estrategia para mejorar la visibilidad de búsqueda

Esta estructura de clasificación nos ha ayudado a expandir nuestra cobertura de contenido y al mismo tiempo mantener puntos de enfoque específicos. También nos ha ayudado con problemas heredados comunes, como evitar la duplicación de contenido existente al tener un mapeo claro del contenido a mano, para poder seguir construyendo constructivamente sobre las conversaciones existentes donde hemos invertido antes en diferentes temas de conversación. Esto ayuda a Abierto al Público a responder a los intereses de los usuarios con contenido estructurado y conectado. También ha contribuido a que el contenido sea más visible y atractivo para los motores de búsqueda.

Como resultado de este y algunos otros cambios editoriales, Abierto al Público ha más que duplicado la visibilidad de su contenido durante el año pasado.

¿Y tú? ¿Cómo crees que el modelado de tópicos puede beneficiar los recursos de conocimiento para su trabajo, comunidad o gobierno?


Archivado Bajo:Gestión del conocimiento Etiquetado con:Metodologías, Procesamiento del Lenguaje Natural, Recursos accionables

Kyle Strand

Kyle Strand es especialista senior en Gestión del Conocimiento y lidera la Biblioteca Felipe Herrera en el Sector de Conocimiento, Innovación y Comunicación del Banco Interamericano de Desarrollo (BID). Durante más de una década, su trabajo se ha centrado en iniciativas para mejorar el acceso al conocimiento tanto en el Banco como en la región de América Latina y el Caribe. Kyle diseñó el primer repositorio abierto de productos de conocimiento en el BID y encabezó la idea del software como un producto de conocimiento para ser reutilizado y adaptado con fines de desarrollo, lo que llevó al BID a convertirse en la primera entidad multilateral en reconocerlo formalmente como tal. Actualmente, Kyle coordina los servicios bibliotecarios dentro de la organización, apoya el ciclo de vida (creación, publicación y reutilización) de productos de conocimiento abierto (incluyendo publicaciones y datos abiertos), y promueve el uso de la inteligencia artificial y el procesamiento del lenguaje natural como piedra angular de la gestión del conocimiento en la era digital. Kyle también es editor ejecutivo de Abierto al Público, un blog en español que promueve la apertura y reutilización del conocimiento. Cuenta con una licenciatura de la Universidad de Michigan y una maestría de la Universidad George Washington.

Daniela Collaguazo

Nacida en Quito, Ecuador en abril de 1984. Daniela culminó sus estudios de pregrado en la Universidad San Francisco de Quito. Posteriormente, vivió 3 años en Alemania, en donde cursó su maestría en Gestión de la Tecnología e Innovación en la Universidad Técnica de Brandenburgo Cottbus-Senftenberg. Al culminar sus estudios, Daniela enseñó Tecnologías Web en la Facultad de Arquitectura Diseño y Artes en la Pontificia Universidad Católica del Ecuador. Actualmente, se encuentra colaborando con el BID como consultora en proyectos relacionados con aprendizaje automático y procesamiento del lenguaje natural. Es una apasionada del deporte y ha participado en varias competencias en su país natal, entre ellas una de aguas abiertas y los dos primeros triatlones de media distancia.

Michelle Marshall

Michelle Marshall fue editora de Abierto al Público del 2018 hasta finales del 2020. Previos a su experiencia en Abierto al Público también trabajó como consultora de gestión del conocimiento en el BID desde 2016, facilitando actividades colaborativas de intercambio de conocimientos y documentando técnicas de innovación abierta. Michelle está interesada en la aplicación del pensamiento sistémico y el diseño centrado en las personas como parte de la estrategia de responder a los desafíos ampliamente compartidos en el desarrollo internacional. Estudió Relaciones Internacionales en la Universidad George Washington y el Diseño Inclusivo en el Instituto de Diseño de Interacción de Copenhague.

Reader Interactions

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Primary Sidebar

SIGUENOS

Suscríbete

Sobre este blog

Podemos describir al conocimiento abierto como aquel conocimiento que puede ser usado, reutilizado y compartido sin restricciones, ya que cuenta con las características tanto legales como tecnológicas para ser accedido por cualquier persona, en cualquier momento y en cualquier lugar del mundo.

En el blog "Abierto al Público" exploramos los temas, recursos, iniciativas e impacto de la apertura de conocimiento a nivel global, prestando especial atención a lo que sucede en la región de América Latina y el Caribe. También abordamos los esfuerzos que lleva a cabo el Banco Interamericano de Desarrollo por apoyar la diseminación del conocimiento abierto y accionable que constantemente genera esta organización.

Buscar

Explorar temas

AcademiaBID Acceso abierto Acceso a la información Análisis de datos Análisis de texto Big Data Cambio climático Ciencia Abierta Conceptos clave Conocimiento Abierto Coronavirus Creative Commons Credenciales digitales Crowdsourcing Código para el Desarrollo Datos geoespaciales Diseño instruccional El Rincón de Publicación Emprendimiento Eventos Gobierno abierto Género y diversidad Hackatones Inclusión digital Innovación abierta Inteligencia Artificial Lecciones aprendidas Metodologías MOOC Más leídos Números para el Desarrollo Objetivos de Desarrollo Sostenible Participación ciudadana Paso a paso Periodismo de datos Procesamiento del Lenguaje Natural Productos de conocimiento Protección de datos Proyectos de desarrollo Recursos accionables Solidaridad Trabajo en equipo Visualización de datos

Publicaciones similares

  • ¿Cómo hacerse una idea de mil documentos con un clic? El modelado de tópicos para la gestión del conocimiento
  • Recursos en video para entender el movimiento por el Acceso Abierto
  • Inteligencia artificial: conceptos básicos y aplicaciones en el desarrollo
  • Mapas de conocimiento abierto: una interfaz visual para el conocimiento científico mundial
  • Conoce el Clasificador de Datos Atípicos

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

Blogs escritos por empleados del BID:

Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


Blogs escritos por autores externos:

Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



Política de privacidad

Copyright © 2023 · Magazine Pro on Genesis Framework · WordPress · Log in

Banco Interamericano de Desarrollo

Aviso Legal

Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

facebook
twitter
youtube
En este sitio web se utilizan cookies para optimizar la funcionalidad y brindar la mejor experiencia posible. Si continúa visitando otras páginas, se instalarán cookies en su navegador.
Para obtener más información al respecto, haga clic aquí.
x
Manage consent

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary
Always Enabled

Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.

Non-necessary

Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.

SAVE & ACCEPT