top of page

ChatGPT atinge precisão inédita e ultrapassa Humanos em diagnóstico de tumores cerebrais


Resumo:

Um estudo recente comparou a precisão diagnóstica do ChatGPT, baseado no modelo GPT-4, com a de radiologistas em 150 relatórios de ressonância magnética de tumores cerebrais. O ChatGPT alcançou uma precisão de 73% nos diagnósticos, ligeiramente superior à dos neurorradiologistas (72%) e dos radiologistas gerais (68%). Estes achados reforçam o papel emergente da IA na radiologia, com potencial para reduzir a carga de trabalho dos médicos e aumentar a precisão dos diagnósticos no futuro.


O surgimento e os avanços subsequentes de grandes modelos de linguagem (LLMs) como a série GPT dominaram recentemente o discurso global sobre tecnologia. 


Esses modelos representam uma nova fronteira em inteligência artificial, usando técnicas de aprendizado de máquina para processar e gerar linguagem de uma forma que rivaliza com a complexidade e a nuance do nível humano. 


A rápida evolução e o impacto generalizado dos LLMs se tornaram um fenômeno global, gerando discussões sobre suas potenciais aplicações e implicações.


Além disso, a introdução de chatbots como o Chat Generative Pre-trained Transformer (ChatGPT), que usa esses grandes modelos de linguagem para gerar conversas, tornou mais fácil utilizar esses modelos em um formato de conversação.

No âmbito dos LLMs, a série GPT, em particular, ganhou atenção significativa. Muitas aplicações foram exploradas no campo da radiologia. Entre estes, o potencial do GPT para auxiliar no diagnóstico a partir de achados de imagem é notável porque tais capacidades podem complementar os aspectos essenciais da prática clínica diária e educação. 


Dois estudos mostram o potencial do GPT-4 para gerar diagnóstico diferencial no campo da neurorradiologia. Um estudo utiliza o “Caso da Semana” do American Journal of Neuroradiology, e o outro estudo utiliza os casos da “Freiburg Neuropathology Case Conference” do periódico Clinical Neuroradiology.


Além disso, grandes modelos de linguagem como o GPT-4 mostraram potencial diagnóstico diferencial em subespecialidades além do campo da neurorradiologia.


Embora essas investigações pioneiras sugiram que o GPT-4 pode desempenhar um papel importante no diagnóstico radiológico, não há estudos relatando avaliação usando relatórios de radiologia do mundo real. 


Ao contrário dos questionários, que tendem a apresentar casos típicos cuidadosamente selecionados e são criados por indivíduos já cientes do diagnóstico correto, os relatórios de radiologia do mundo real podem conter informações menos estruturadas e mais diversas. Essa diferença pode levar a avaliações tendenciosas que não refletem a natureza complexa da radiologia clínica.


Para abordar essa lacuna, um novo estudo examina as habilidades diagnósticas do GPT-4 usando apenas relatórios de radiologia clínica do mundo real. Na prática clínica diária, pensar em diagnósticos diferenciais e finais pode ser desafiador e demorado. Se o GPT-4 puder se destacar nesse processo de diagnóstico, isso indica valor potencial em cenários clínicos.


O estudo, realizado por pesquisadores da Osaka Metropolitan University e publicado na European Radiology Journal,  explorou o uso do GPT-4, um grande modelo de linguagem (LLM), para diagnósticos em radiologia, especificamente em casos de tumores cerebrais.


A ideia é ver se a IA pode apoiar radiologistas, especialmente ao lidar com relatórios complexos de ressonância magnética, o que é importante para pacientes que precisam de diagnóstico rápido e preciso.


A pesquisa focou em relatórios reais de ressonância magnética de pacientes com tumores cerebrais de duas instituições japonesas entre 2017 e 2021. Esses relatórios, originalmente em japonês, foram traduzidos para o inglês por radiologistas experientes. 


Então, o GPT-4 e cinco radiologistas receberam as informações textuais dos mesmos relatórios e foram instruídos a sugerir diagnósticos diferenciais (possíveis condições alternativas) e diagnósticos finais para cada caso. A precisão do diagnóstico foi verificada com o diagnóstico patológico final, feito após análise do tecido tumoral removido cirurgicamente, servindo como "padrão-ouro" para validar os diagnósticos.

Dos 150 casos, o GPT-4 alcançou uma precisão de 73% nos diagnósticos finais, comparável à faixa de precisão dos radiologistas, que foi de 65% a 79%. Para diagnósticos diferenciais, o GPT-4 teve uma precisão de 94%, superior à precisão dos radiologistas, que variou entre 73% e 89%.


É interessante que a precisão do GPT-4 em diagnósticos diferenciais foi alta e consistente, independentemente de os relatórios terem sido elaborados por neurorradiologistas ou radiologistas gerais.


Esses resultados indicam que o GPT-4 tem potencial para se tornar uma ferramenta auxiliar valiosa para diagnósticos de tumores cerebrais. Ele pode servir como uma "segunda opinião" para neurorradiologistas em casos de diagnósticos finais, ajudando a aumentar a segurança no processo decisório, e como uma ferramenta orientadora para radiologistas gerais e residentes, que podem se beneficiar das sugestões de diagnóstico oferecidas pelo modelo. 


A consistência do GPT-4 nos diagnósticos diferenciais reforça a possibilidade de integrar a IA em práticas clínicas para otimizar o processo de diagnóstico em situações de alta demanda, permitindo mais precisão e agilidade no atendimento aos pacientes.



LEIA MAIS:


Comparative analysis of GPT-4-based ChatGPT’s diagnostic performance with radiologists using real-world radiology reports of brain tumors. 

Yasuhito Mitsuyama, Hiroyuki Tatekawa, Hirotaka Takita, Fumi Sasaki, Akane Tashiro, Satoshi Oue, Shannon L. Walston, Yuta Nonomiya, Ayumi Shintani, Yukio Miki & Daiju Ueda 

Eur Radiol. Imaging Informatics and Artificial Intelligence. August 2024


Abstract:


Large language models like GPT-4 have demonstrated potential for diagnosis in radiology. Previous studies investigating this potential primarily utilized quizzes from academic journals. This study aimed to assess the diagnostic capabilities of GPT-4-based Chat Generative Pre-trained Transformer (ChatGPT) using actual clinical radiology reports of brain tumors and compare its performance with that of neuroradiologists and general radiologists. We collected brain MRI reports written in Japanese from preoperative brain tumor patients at two institutions from January 2017 to December 2021. The MRI reports were translated into English by radiologists. GPT-4 and five radiologists were presented with the same textual findings from the reports and asked to suggest differential and final diagnoses. The pathological diagnosis of the excised tumor served as the ground truth. McNemar’s test and Fisher’s exact test were used for statistical analysis. In a study analyzing 150 radiological reports, GPT-4 achieved a final diagnostic accuracy of 73%, while radiologists’ accuracy ranged from 65 to 79%. GPT-4’s final diagnostic accuracy using reports from neuroradiologists was higher at 80%, compared to 60% using those from general radiologists. In the realm of differential diagnoses, GPT-4’s accuracy was 94%, while radiologists’ fell between 73 and 89%. Notably, for these differential diagnoses, GPT-4’s accuracy remained consistent whether reports were from neuroradiologists or general radiologists. GPT-4 exhibited good diagnostic capability, comparable to neuroradiologists in differentiating brain tumors from MRI reports. GPT-4 can be a second opinion for neuroradiologists on final diagnoses and a guidance tool for general radiologists and residents.

Comments


bottom of page