Inspirada no Cérebro: A Nova IA que "Assiste" Filmes como Humanos
- Lidi Garcia
- 20 de dez. de 2024
- 5 min de leitura

Resumo:
Este estudo revelou como o cérebro processa cenas visuais complexas, como as de filmes. Ele mostrou que os neurônios do teto óptico dos girinos reconhecem padrões temporais específicos e podem ajustar suas respostas conforme o ambiente visual muda. Com base nessas descobertas, os pesquisadores criaram uma tecnologia de IA mais eficiente para reconhecer filmes, superando os métodos tradicionais em termos de velocidade e precisão.
As cenas que vemos ao nosso redor, como um filme ou uma paisagem em movimento, mudam rapidamente no tempo e no espaço. Essas mudanças são chamadas de dinâmicas espaço-temporais e são cruciais para que possamos entender o mundo visual.
Apesar de sabermos muito sobre como o cérebro interpreta imagens estáticas, como uma foto, ainda há muitas dúvidas sobre como ele processa sequências dinâmicas de imagens, como as de um filme.
Para explorar esse processo, pesquisadores estudaram o comportamento de certos neurônios no cérebro de girinos. Esses neurônios estão localizados no teto óptico, uma área do cérebro que ajuda a processar informações visuais.

Eles usaram métodos avançados para identificar os "campos receptivos" desses neurônios, ou seja, as áreas nas quais eles reagem a estímulos visuais. Os pesquisadores apresentaram aos girinos padrões de luz complexos que simulavam cenas naturais e analisaram como os neurônios respondiam a essas mudanças rápidas nas imagens.
Os pesquisadores descobriram que os neurônios no teto óptico dos girinos são capazes de reconhecer sequências visuais com duração de 200 a 600 milissegundos (aproximadamente a duração de uma piscada).
Essas sequências de imagens tinham pontos específicos de início e parada que os neurônios identificavam claramente. Além disso, os neurônios não apenas reconhecem essas sequências, mas também ajustam sua resposta dependendo da experiência visual anterior do animal. Isso significa que o cérebro pode "aprender" com o que vê e se adaptar às mudanças no ambiente.
Outro achado interessante foi que os neurônios parecem seguir padrões matemáticos, semelhantes a funções trigonométricas, para processar essas imagens ao longo do tempo.
Isso sugere que o cérebro usa uma espécie de "regras repetitivas" para identificar cenas visuais de forma eficiente. Esses padrões repetitivos formam a base de como o cérebro detecta e processa cenas dinâmicas, como um filme em movimento.

Esquema do sistema retino-tectal de um peixe e as conexões do teto óptico com o núcleo isthmi (NI), núcleo pretectalis (NP) e as vias pré-motoras eferentes do teto. As setas cinzas mostram o mapeamento visuotópico no lobo tectal oposto. As células no teto projetam-se excitatoriamente para o NI ipsilateral. O NP, que recebe entrada tectal, projeta-se inibitoriamente para o NI. As setas pontilhadas mostram a projeção do NI nos lobos tectais ipsilaterais. Fonte: David P. M. Northmore
A pesquisa também trouxe uma aplicação prática: entender como o cérebro processa essas informações pode inspirar a criação de tecnologias mais eficientes.
Hoje, a inteligência artificial (IA) já usa algumas ideias baseadas no cérebro para reconhecer imagens estáticas, como fotos. Por exemplo, redes neurais convolucionais (CNNs), como as usadas em sistemas de reconhecimento facial, se baseiam em princípios do cérebro humano para identificar formas e padrões visuais.
Porém, quando se trata de cenas dinâmicas, como vídeos, a tecnologia atual ainda é limitada. Processar um filme requer muitas camadas de processamento, grandes conjuntos de dados e muito tempo para treinar a IA.
Inspirados pelo funcionamento dos neurônios do teto óptico dos girinos, os pesquisadores criaram uma nova rede de aprendizado de máquina chamada MovieNet. Essa rede foi projetada para imitar como o cérebro codifica sequências de imagens.
Os resultados foram impressionantes. A MovieNet conseguiu classificar cenas naturais de filmes de forma mais eficiente que as redes de aprendizado de máquina tradicionais.
Além disso, ela usou menos dados e menos etapas para realizar a tarefa. Isso demonstra que aplicar princípios baseados no cérebro pode levar a avanços significativos na tecnologia de reconhecimento de filmes.
Este estudo não apenas ajudou a entender como o cérebro processa cenas visuais complexas, mas também mostrou como esse conhecimento pode ser usado para melhorar a tecnologia.
Ao aprender com o funcionamento do cérebro, especialmente de áreas como o teto óptico dos girinos, os pesquisadores criaram uma IA mais inteligente e eficiente para reconhecer filmes.
Esse trabalho abre novas possibilidades para desenvolver tecnologias inspiradas no cérebro, tornando-as mais rápidas e precisas no futuro.

IA de reconhecimento de filme usando regras neuronais para RFs espaço-temporais como codificador de filme. (A e B) Codificação de cenas de filme com base em propriedades de RF espaço-temporais neuronais. Filmes capturados de uma câmera montada na cabeça de um falcão voando por uma floresta foram usados como entrada (A) e processados por uma matriz de 10 × 10 codificadores com base em propriedades de RF espaço-temporais de neurônios ópticos tectais (B, Esquerda) para gerar uma saída de matriz de um segmento de filme de 600 ms (B, Direita). (C) Codificadores montados a partir de matrizes de RF de quatro neurônios geraram quatro matrizes de saída diferentes de um filme de 600 ms. A escala de intensidade em C se aplica a B. (D) Conjuntos de dados de treinamento e teste para aprendizado de máquina consistem em segmentos de filme de 600 ms de girinos nadando em 0, 5, 15 e 30 µM de pentilenotetrazol (PTZ). (E) Rede de IA baseada no cérebro classifica com precisão os dados do filme. As redes consistiam em matrizes de 1 a 25 codificadores de movimento multiplexados (E, esquerda) e uma CNN (E, meio). Os codificadores transformam segmentos de filme de ~600 ms em dados de matriz. As matrizes de saída do codificador foram organizadas em uma arquitetura semelhante a uma hipercoluna topográfica ou uma arquitetura empilhada (E, meio). Redes treinadas com ambas as arquiteturas distinguiram os comportamentos de natação de animais expostos a 0, 5, 15 e 30 µM PTZ. Os gráficos (E) mostram a precisão da classificação. Linha pontilhada: classificação dos dados de treinamento, linhas cinzas: classificação dos dados de teste com números crescentes de codificadores na matriz. O modelo de rede treinado com a arquitetura de hipercoluna do codificador multiplexado superou a rede com a arquitetura empilhada (hipercoluna: precisão de 82,3%, precisão empilhada de 70,1%, E, Direita). Humanos (linha azul, n = 6) classificaram comportamentos de natação com precisão de 64,5% após treinamento com filmes de girinos em 0, 5, 15 e 30 µM PTZ (média móvel de 30 testes). A pontuação atingiu um platô antes de 200 testes.
LEIA MAIS:
Identification of movie encoding neurons enables movie recognition AI
Masaki Hiramoto and Hollis T. Cline
PNAS. November 19, 2024. 121 (48) e2412260121
Abstract:
Natural visual scenes are dominated by spatiotemporal image dynamics, but how the visual system integrates “movie” information over time is unclear. We characterized optic tectal neuronal receptive fields using sparse noise stimuli and reverse correlation analysis. Neurons recognized movies of ~200-600 ms durations with defined start and stop stimuli. Movie durations from start to stop responses were tuned by sensory experience though a hierarchical algorithm. Neurons encoded families of image sequences following trigonometric functions. Spike sequence and information flow suggest that repetitive circuit motifs underlie movie detection. Principles of frog topographic retinotectal plasticity and cortical simple cells are employed in machine learning networks for static image recognition, suggesting that discoveries of principles of movie encoding in the brain, such as how image sequences and duration are encoded, may benefit movie recognition technology. We built and trained a machine learning network that mimicked neural principles of visual system movie encoders. The network, named MovieNet, outperformed current machine learning image recognition networks in classifying natural movie scenes, while reducing data size and steps to complete the classification task. This study reveals how movie sequences and time are encoded in the brain and demonstrates that brain-based movie processing principles enable efficient machine learning.
Comments