
Essa pesquisa tem implicações significativas para a robótica, inteligência artificial e até mesmo para a neurociência, ajudando a entender melhor como os humanos desenvolvem essa capacidade única de generalizar conhecimento e aplicar aprendizados a novas situações. O robô aprendeu muito melhor a compreender comandos novos quando recebeu treinamento variado com diferentes combinações de palavras e movimentos. Em termos práticos, isso significa que robôs no futuro poderão aprender de maneira mais parecida com os humanos, tornando-se mais adaptáveis a novas situações e comandos que não foram programados diretamente.
Os seres humanos possuem uma habilidade impressionante de aplicar conhecimentos adquiridos anteriormente para resolver novos problemas. Um dos aspectos mais importantes dessa capacidade é a composicionalidade, que significa a habilidade de dividir um conceito complexo em partes menores e reutilizáveis.
Por exemplo, se alguém aprende a ação "empurrar um carrinho", pode aplicar esse conhecimento para entender como "empurrar uma cadeira" funciona, mesmo sem nunca ter feito isso antes. Essa característica nos permite generalizar aprendizados e adaptá-los a novas situações.
Na robótica, essa habilidade é um grande desafio. Os pesquisadores se perguntam: como os robôs podem desenvolver essa mesma flexibilidade mental, aprendendo a combinar palavras e conceitos de maneira dinâmica enquanto interagem com o mundo ao seu redor?
Em outras palavras, como um robô pode aprender a entender ordens como "pegar a bola" e depois aplicar esse conhecimento para entender "pegar o cubo", mesmo que nunca tenha sido treinado especificamente para isso?

Para explorar essa questão, os cientistas da Okinawa Institute of Science and Technology, Japao, criaram um modelo de rede neural inspirado no cérebro humano. Esse modelo foi projetado para integrar três tipos de informação ao mesmo tempo:
Visão (o que o robô vê),
Propriocepção (a percepção do próprio movimento e posição do braço robótico),
Linguagem (as instruções que recebe).
Esse modelo segue um princípio chamado energia livre, que é uma teoria usada para explicar como o cérebro humano faz previsões sobre o ambiente e ajusta seu comportamento com base nessas previsões.
O objetivo era criar um sistema que aprendesse a relacionar palavras com ações físicas e que conseguisse generalizar esse aprendizado para novas combinações de palavras e movimentos.

Os pesquisadores testaram esse modelo em um braço robótico, conduzindo uma série de experimentos de simulação. Os resultados foram reveladores: o robô aprendeu muito melhor a compreender comandos novos quando recebeu treinamento variado com diferentes combinações de palavras e movimentos.
Ou seja, se ele aprendeu a "empurrar a bola" e a "levantar o cubo", ele tinha mais facilidade para entender uma nova instrução como "levantar a bola", mesmo sem ter sido treinado diretamente para isso.
Isso aconteceu porque o robô conseguiu organizar mentalmente as palavras e os movimentos de forma estruturada, criando padrões reutilizáveis, assim como os humanos fazem.
Para entender melhor quais elementos do modelo eram essenciais para esse aprendizado, os pesquisadores realizaram testes de ablação, que consistem em remover certas partes do sistema para ver como isso afeta o desempenho.
Esses testes mostraram que dois fatores foram fundamentais para que o robô aprendesse corretamente:
Atenção visual: o robô precisava focar nos objetos certos para entender e executar a ação corretamente.
Memória de trabalho: ele precisava manter informações temporárias na "mente" para coordenar os movimentos e alcançar os objetivos com precisão.
Esses achados são importantes porque nos ajudam a compreender como a interação entre linguagem e movimento pode levar ao desenvolvimento da composicionalidade, tanto em humanos quanto em sistemas artificiais.

Em termos práticos, isso significa que robôs no futuro poderão aprender de maneira mais parecida com os humanos, tornando-se mais adaptáveis a novas situações e comandos que não foram programados diretamente.
Essa pesquisa pode ter implicações significativas para a robótica, inteligência artificial e até mesmo para a neurociência, ajudando a entender melhor como os humanos desenvolvem essa capacidade única de generalizar conhecimento e aplicar aprendizados a novas situações.
LEIA MAIS:
Development of compositionality through interactive learning of language and action of robots
PRASANNA VIJAYARAGHAVAN, JEFFREY FREDERIC QUEISSER, SERGIO VERDUZCO FLORES, and JUN TANI
SCIENCE ROBOTICS, 22 Jan 2025, Vol 10, Issue 98
DOI: 10.1126/scirobotics.adp0751
Abstract:
Humans excel at applying learned behavior to unlearned situations. A crucial component of this generalization behavior is our ability to compose/decompose a whole into reusable parts, an attribute known as compositionality. One of the fundamental questions in robotics concerns this characteristic: How can linguistic compositionality be developed concomitantly with sensorimotor skills through associative learning, particularly when individuals only learn partial linguistic compositions and their corresponding sensorimotor patterns? To address this question, we propose a brain-inspired neural network model that integrates vision, proprioception, and language into a framework of predictive coding and active inference on the basis of the free-energy principle. The effectiveness and capabilities of this model were assessed through various simulation experiments conducted with a robot arm. Our results show that generalization in learning to unlearned verb-noun compositions is significantly enhanced when training variations of task composition are increased. We attribute this to self-organized compositional structures in linguistic latent state space being influenced substantially by sensorimotor learning. Ablation studies show that visual attention and working memory are essential to accurately generate visuomotor sequences to achieve linguistically represented goals. These insights advance our understanding of mechanisms underlying development of compositionality through interactions of linguistic and sensorimotor experience.
Bình luận