Se é difícil para uma pessoa encontrar as informações que está procurando, imagine o quão complexo pode ser ensinar algoritmos de inteligência artificial a identificar informações relevantes e apresentá-las quando um usuário precisa delas! Esse é precisamente o desafio que enfrentamos ao desenvolver o FindIt: uma plataforma inteligente que, de forma muito semelhante a Netflix, traz o conhecimento gerado pelo Grupo BID tanto para sua equipe quanto para o público externo.
Enfrentamos dois desafios centrais na criação desta plataforma:
- Oferecer recomendações de conteúdo proativamente aos nossos usuários, exigindo que eles façam o mínimo de esforço, entregando informações antes mesmo de pedirem.
- Reconhecer o nível de experiência de nossos colegas, com base nos dados que a organização já possuía, para poder recomendar com quem falar sobre um determinado tema.
Estamos orgulhosos de termos conseguido superar os dois desafios e aqui vamos contar como chegamos lá!
Como ensinar algoritmos a simular inteligência?
Primeiro de tudo, é necessário fazer com que pense como uma pessoa! Quando você precisa encontrar informações sobre um tópico específico, você pensa sobre isso na forma de palavras e conceitos, usando linguagem natural. Então, para que um algoritmo, que é apenas um conjunto finito de instruções, possa responder com sugestões relevantes, primeiro ele tem que aprender a entender a linguagem humana, e ainda mais difícil neste caso, entender o jargão que usamos no BID.
Atualmente existem várias tendências na implementação da Inteligência Artificial e o processamento de linguagem natural (PNL) é talvez o mais dinâmico. Isso se concentra precisamente na compreensão, interpretação e manipulação da linguagem humana e nessa linha, aplicamos 2 metodologias PLN para projetar 2 escolas para algoritmos: uma focada em ontologia e outra em deep learning.
Como funciona a metodologia focada em ontologia?
A primeira lição para nossos algoritmos é sobre taxonomia, que é essencialmente uma lista hierárquica de termos que permite a classificação de informações em categorias. Como é uma taxonomia? Imagine a estrutura de uma árvore, onde os ramos principais representam as categorias e os ramos secundários as subcategorias. Aqui está um exemplo:

Embora complexa, uma taxonomia não é suficiente para nossos algoritmos entenderem a linguagem natural humana e terem a capacidade de recomendar conteúdo relevante para nossos públicos. Criamos, então, uma ontologia, que é um modelo sofisticado que contém um conjunto de taxonomias, chamadas de classes, que representam famílias de conceitos, e que estão relacionadas entre si.
Para entender melhor, preparamos o seguinte diagrama:

Este diagrama pode ter várias interpretações, como exemplo apresentamos o seguinte:
Autor – Trabalha para Instituições
Autor – Escreve conteúdo
Conteúdo – tem um ou mais temas
Tema – Está relacionado a setores
Instituição – Pertence a um ou mais setores
Conteúdo – Está relacionado a país e, consequentemente, a região
No caso de nossos algoritmos, a vantagem de um modelo ontológico é que ele ensina a eles a linguagem por meio de conceitos, esses conceitos pertencem a uma ou mais categorias bem estabelecidas, e têm atributos que descrevem suas características. Ao receber um texto, nossos algoritmos podem identificar a linguagem, saber a definição dos termos que reconhecem, entender os sinônimos dos termos e também fazer uma interpretação consistente entre jargões, dialetos e linguagens. Mas, mais importante, eles entendem as relações entre conceitos para produzir recomendações e responder a perguntas complexas como:
- Que conteúdo o BID publicou recentemente que visa a transformação digital na região latino-americana e caribenha?
- Estamos trabalhando em projetos que usam drones?
- Quais políticas ou ações foram propostas para a recuperação econômica de pequenas e médias empresas na América Latina após a pandemia?
Escalamos esse processo para o nível de 80.000 recursos digitais com a criação de um Gráfico de Conhecimento onde as conexões permitem aos nossos algoritmos fazer suas recomendações e aprender com sua própria experiência são implantadas.
Interessante, mas qual é o resultado final? Assim como a Amazon recomenda produtos, o FindIt e seus algoritmos inferem que se um usuário visitar um post sobre iniciativas para aumentar a equidade de gênero, certamente estará interessado em outros materiais relacionados ao tema e irá entregá-los na mesma interação. Vamos assistir ao vivo, clique na imagem abaixo e comece a viver a experiência FindIt!

O que aprendemos com a metodologia com foco em deep learning?
No campo da inteligência artificial, o deep learning (termo em inglês para aprendizado produndo)é uma das áreas que mais aumentou nossa capacidade de criar máquinas inteligentes. Em essência, o deep learning trata do uso de algoritmos inspirados na estrutura e função do cérebro humano. Essas redes neurais, como são chamadas, processam grandes quantidades de dados iterativamente para descobrir e inferir as conexões entre os dados. O deep learning é capaz de fazer em segundos um volume de análises que um ser humano levaria vários meses e até anos.
Para aplicar a metodologia da escola focada no deep learning, reunimos mais de 2,1 bilhões de palavras escritas em inglês e espanhol sobre o trabalho do grupo BID. Essas palavras vieram de fontes tão diversas quanto publicações, descrições de trabalho, estratégias e propostas de projetos. Analisamos esse grande número de palavras com um algoritmo que gera word embeddings (incorporações de palavras) para criar um modelo que revela as relações entre conceitos em várias dimensões. É importante ressaltar que, além do padrão espanhol ou inglês, essas associações refletem nosso jargão, nossa forma particular de falar na instituição. Como exemplo, apresentamos na imagem abaixo algumas conexões interessantes que o modelo retornou:

A palavra “agricultura” está relacionada à “pecuária”, “silvicultura” e “mineração”, o que é compreensível, mas o modelo também mostra que a palavra “econometria” está intimamente ligada à “agricultura”, o que faz sentido no contexto do trabalho que fazemos. “Agricultura” também está relacionada à “agrícola”, que está intimamente posicionada ao termo “El Salvador”, onde apoiamos projetos agrícolas, que chamamos de “operações”. “As operações, por sua vez, estão conectadas a termos que refletem como nos referimos ao nosso trabalho operacional no BID, termos como “empréstimos”, “CTs” e “fundos não reembolsáveis”. Este é um processo não supervisionado, o que significa que todas as conexões entre os termos são mapeadas por um algoritmo, sem necessidade de cura humana, ao contrário da escola focada em ontologia que requer supervisão manual regular. Embora o gráfico acima mostre apenas três exemplos, deve-se lembrar que o modelo completo é feito em uma escala de mais de 2 bilhões de palavras.
Existem muitos usos potenciais para este modelo de linguagem que revela o mapa do nosso jargão. No caso do FindIt, trouxemos uma nova perspectiva para a análise de texto que a organização já possuía sobre sua equipe. Identificar evidências dos conceitos mais intimamente relacionados aos nossos colegas para revelar informações sobre suas habilidades e experiências. O resultado final é um localizador de conhecimento não falado, por assim dizer, que permite que os colegas se conectem de forma fácil e rápida para responder a uma pergunta, compartilhar experiências relevantes ou trazer certas habilidades para um projeto ou equipe. Tudo é impulsionado por esse modelo de linguagem.
Veja um dos resultados que aparecem quando você está procurando por conhecimento aberto. Bom trabalho FindIt!

Complementaridade: dois modelos são melhores que um
O FindIt se formou em ambas as escolas: aquela focada em ontologia e aquela focada em deep learning. O aprendizado que ele adquiriu foi aplicado para entender, classificar e ordenar recursos digitais, bem como para inferir que conhecimento uma pessoa tem. Como resultado, agora, diante de um pedido específico colocado em palavras, o FindIt contextualiza e sugere informações relevantes do universo de conhecimento do Grupo BID. Essa capacidade de conectar usuários e conhecimento aumenta nossa capacidade de colaborar, e gera maior compartilhamento e reutilização do conhecimento, o que nos leva um passo adiante no caminho da transformação digital.
Esse texto foi originalmente publicado em espanhol no blog Conocimiento Abierto (https://blogs.iadb.org/conocimiento-abierto/es/ontologia-y-deep-learning/)
Leave a Reply