top of page

Os Modelos de Linguagem são Gênios ou apenas bem-treinados? Novo estudo revela falhas na lógica da IA


Resumo:

Um estudo recente questiona se os modelos de linguagem grande (LLMs) realmente formam modelos de mundo coerentes, apesar de suas saídas precisas em tarefas complexas como gerar direções ou jogar. Pesquisadores descobriram que, embora os LLMs forneçam direções de direção quase perfeitas, eles falham com mudanças inesperadas, sugerindo que os modelos não entendem as regras subjacentes.


Pesquisadores de Harvard e MIT investigaram como grandes modelos de linguagem (LLMs) aprendem a representar informações complexas do mundo real.


A ideia central é que esses modelos poderiam, teoricamente, capturar representações implícitas (um “modelo de mundo”) das estruturas subjacentes dos dados nos quais foram treinados.


Imagine criar um aplicativo de navegação. Normalmente, você mapearia todas as ruas de uma cidade e usaria algoritmos para encontrar rotas. Os LLMs sugerem outra abordagem: treinar o modelo com trajetos já realizados (por exemplo, “vá para o leste, depois para o norte”) e deixá-lo prever a próxima direção com base no padrão aprendido. 


Se o modelo for bem-sucedido, ele teria aprendido implicitamente o mapa da cidade sem nunca tê-lo visto diretamente. Porém, para usar LLMs dessa forma, é essencial saber se eles realmente conseguem aprender tais representações. Foi isso que os pesquisadores tentaram responder. 

Para investigar se os modelos realmente aprendem o “modelo de mundo” subjacente, os cientistas propuseram analisar como eles lidam com domínios estruturados, como jogos de tabuleiro e navegação.


Esses domínios podem ser representados por autômatos finitos determinísticos (DFAs), uma forma matemática de modelar estados e transições. Por exemplo:


Jogos de tabuleiro: Estados representam posições no jogo, e transições correspondem às jogadas.


Navegação: Estados representam locais, e transições são movimentos (virar à esquerda, seguir em frente, etc.).


Os pesquisadores criaram métricas baseadas no teorema de Myhill-Nerode, da teoria da linguagem, para avaliar se os modelos conseguem capturar os estados e transições subjacentes corretamente. 

À esquerda, uma representação visual de um limite Myhill-Nerode e interior. À direita, exemplos de dois estados para Connect-4 cumulativo. Ambos os estados têm o mesmo conjunto de próximos movimentos válidos. A sequência mais curta no limite Myhill-Nerode tem comprimento 4, e o limite contém sequências de até comprimento 30.


Duas métricas principais foram usadas:


  1. Compressão de Sequências: Se dois caminhos (ou sequências) levam ao mesmo estado no modelo, o LLM deve gerar previsões idênticas para ambos. Isso avalia se o modelo entende que os estados são equivalentes.


  2. Distinção de Sequências: Se dois caminhos levam a estados diferentes, o LLM deve prever continuidades distintas para cada caminho. Isso avalia se o modelo consegue separar os estados adequadamente.


Essas métricas são agnósticas ao modelo, ou seja, independem da arquitetura ou do treinamento, e se baseiam apenas nas sequências geradas. 

Uma representação visual de nossas duas métricas de avaliação. Um erro de compressão é um modelo que falha em reconhecer que duas sequências que resultam no mesmo estado devem aceitar os mesmos sufixos. Um erro de distinção é um modelo que falha em encontrar os sufixos de distinção corretos para duas sequências que levam a estados diferentes. Nessas métricas medem erros no limite, que são visualmente representados acima. Linha verde (verdadeiro) e linha magenta (modelo generativo).


Para testar a abordagem, os pesquisadores usaram dados de trajetos reais de táxi em Nova York. Eles treinaram LLMs com as sequências de curvas feitas pelos táxis (“curva à direita, siga em frente, curva à esquerda”) e avaliaram se os modelos conseguiam reconstruir o mapa da cidade.


Os modelos pareciam funcionar bem. Eles previam a próxima curva correta quase 100% das vezes. 


Ao aplicar as novas métricas, os pesquisadores descobriram que os modelos não recuperavam o verdadeiro mapa de Manhattan. O “mapa” implícito gerado era incoerente, com ruas impossíveis ou intersecções que não existiam. Isso tornava os modelos frágeis, especialmente ao lidar com desvios. 

Mapas reconstruídos de Manhattan a partir de sequências produzidas por três modelos: o modelo do mundo verdadeiro (a), o modelo do mundo verdadeiro corrompido com ruído (b) e um transformador treinado em caminhadas aleatórias (c). As arestas saem dos nós em sua direção cardinal especificada. Nas imagens ampliadas, as arestas pertencentes ao gráfico verdadeiro são pretas e as arestas falsas adicionadas pelo algoritmo de reconstrução são vermelhas.


Além da navegação, os pesquisadores aplicaram as métricas a jogos como xadrez e Otelo e a quebra-cabeças lógicos. Os modelos tinham bom desempenho nas tarefas principais, mas também mostraram incoerências no entendimento subjacente das regras e estados.


Os resultados mostraram que, embora os LLMs possam executar tarefas impressionantes, isso nem sempre significa que eles entenderam completamente o mundo que estão modelando.


Essa fragilidade é preocupante para aplicações científicas, onde confiamos nos modelos para aprender algo novo e verdadeiro sobre o mundo.


O trabalho também destacou a importância de métricas teoricamente fundamentadas para avaliar se um modelo realmente captura a lógica subjacente de um domínio. Apesar dos avanços, estender essas ideias para domínios mais complexos que vão além dos DFAs é um desafio para pesquisas futuras.



LEIA MAIS:


Evaluating the World Model Implicit in a Generative Model

Keyon Vafa, Justin Y. Chen, Jon Kleinberg, Sendhil Mullainathan, and Ashesh Rambachan

38th Conference on Neural Information Processing Systems (NeurIPS 2024)


Abstract:


Recent work suggests that large language models may implicitly learn world models. How should we assess this possibility? We formalize this question for the case where the underlying reality is governed by a deterministic finite automaton. This includes problems as diverse as simple logical reasoning, geographic navigation, game-playing, and chemistry. We propose new evaluation metrics for world model recovery inspired by the classic Myhill-Nerode theorem from language theory. We illustrate their utility in three domains: game playing, logic puzzles, and navigation. In all domains, the generative models we consider do well on existing diagnostics for assessing world models, but our evaluation metrics reveal their world models to be far less coherent than they appear. Such incoherence creates fragility: using a generative model to solve related but subtly different tasks can lead to failures. Building generative models that meaningfully capture the underlying logic of the domains they model would be immensely valuable; our results suggest new ways to assess how close a given model is to that goal.

Comments


bottom of page