ChatGPT falha em avaliação do Colégio Americano de Gastroenterologia

Um estudo publicado no American Journal of Gastroenterology demonstrou que o ChatGPT-3 e o ChatGPT-4 falharam nos testes de autoavaliação de múltipla escolha de 2021 e 2022 para o American College of Gastroenterology (ACG), o que pode dificultar o uso das ferramentas para educação médica em gastroenterologia.

Nos últimos meses, a empolgação em torno de como o ChatGPT pode transformar a saúde levou os pesquisadores a investigar seus possíveis casos de uso, inclusive na educação médica.

Recentemente o chatbot de inteligência artificial (IA), que utiliza grandes modelos de linguagem (LLM), passou com sucesso nos testes de estilo US Medical Licensing Exam (USMLE), provou ser capaz de responder a questões de microbiologia baseadas em competências e mostrou-se promissor em fornecer informações precisas sobre equívocos sobre o câncer. No entanto, a aplicação do ChatGPT em várias especialidades médicas, como a gastroenterologia, não foi totalmente explorada.

Isso levou pesquisadores do Arkansas Gastroenterology, Northwell Health e Northwell’s Feinstein Institutes for Medical Research a avaliarem o ChatGPT-3 e o ChatGPT-4, as iterações mais recentes da ferramenta de processamento de linguagem natural (PNL), na capacidade de cada um de passar em uma avaliação ACG, que é projetado para ajudar os alunos a avaliar como eles se sairiam no exame real do Conselho Americano de Medicina Interna (Abim) Gastroenterologia dos EUA.

Para testar as ferramentas, a equipe de pesquisa encarregou ambas as versões do ChatGPT de responder a um total de 455 perguntas em dois testes ACG. No geral, o ChatGPT-3 respondeu corretamente a 296 das 455 perguntas, marcando 65,1%, enquanto o Chat GPT-4 respondeu corretamente a 284 perguntas, atingindo 62,4%. Nenhuma das versões do ChatGPT alcançou com sucesso uma pontuação de aprovação de 70% superior.

“Recentemente, tem havido muita atenção no ChatGPT e no uso de IA em vários setores. Quando se trata de educação médica, há uma falta de pesquisa em torno dessa ferramenta inovadora em potencial”, disse Arvind Trindade, doutor, autor sênior do estudo e professor associado do Feinstein Institutes’ Institute of Health System Science, em um comunicado à imprensa. “Com base em nossa pesquisa, o ChatGPT não deve ser usado para educação médica em gastroenterologia neste momento e tem um longo caminho a percorrer antes de ser implementado no campo da saúde.”

Juntamente com a recomendação de que o ChatGPT, em sua forma atual, não seja usado para educação médica em gastroenterologia, os pesquisadores destacaram algumas das limitações da ferramenta. Eles explicaram que, como o ChatGPT foi projetado para gerar texto semelhante ao humano com base em solicitações do usuário e prever sequências de palavras, ele só pode fornecer respostas a perguntas com base nos dados nos quais foi treinado.

A equipe de pesquisa indicou que a falha do ChatGPT em testes de gastroenterologia pode ser resultado da ferramenta que fornece informações desatualizadas ou questionáveis de fontes não médicas ou da falta de acesso a revistas médicas pagas, que conteriam as informações mais atualizadas e precisas.

“O ChatGPT despertou entusiasmo, mas com esse entusiasmo vem o ceticismo sobre a precisão e a validade do papel atual da IA na saúde e na educação”, disse Andrew C. Yacht, doutor e vice-presidente sênior de assuntos acadêmicos e diretor acadêmico da Northwell Health. “O fascinante estudo de Trindade é um lembrete de que, ao menos por enquanto, nada supera o uso de recursos testados pelo tempo, como livros, revistas e estudos tradicionais, para passar nos exames médicos tão importantes”, finalizou.

Related posts

Movimento em prol de saúde mais inclusiva tem apoio da ANS

Minsait desenvolve sistema que agiliza doação e transplante de órgãos, em parceria com a Secretaria de Estado da Saúde de Goiás

Devices: a integração do mundo digital e físico no atendimento ao paciente