Um estudo realizado por pesquisadores do Google e publicado na revista Nature revela que a tecnologia de IA generativa da gigante da tecnologia Med-PaLM forneceu respostas de formato longo em 92,6% das perguntas enviadas, o que está em linha com as respostas geradas por médicos em 92,9%.
O Med-PaLM é uma tecnologia de IA generativa que utiliza grandes modelos de linguagem (LLMs) do Google para responder a perguntas médicas. Os pesquisadores utilizaram o MultiMedQA, um padrão que combina seis conjuntos de dados de perguntas médicas existentes abrangendo o escopo da pesquisa, medicina profissional e consultas do consumidor, e HealthSearchQA, um conjunto de dados de perguntas médicas comumente pesquisadas.
As perguntas do MultiMedQA foram feitas por meio do PaLM, um LLM de 540 bilhões de parâmetros, e do Flan-PaLM, sua variante ajustada por instrução. As respostas foram então submetidas a avaliações humanas para avaliar a compreensão, o raciocínio, a factualidade e possíveis danos e preconceitos.
Usando várias estratégias de solicitação, Flan-PaLM provou mostrar precisão em responder ao conjunto de dados MultiMedQA, com 67,6% de precisão em questões do tipo Exame de Licenciamento Médico dos EUA, superando os níveis de precisão anteriores em 17%. Ainda assim, os pesquisadores observaram lacunas importantes em suas respostas às questões médicas do consumidor.
Portanto, os pesquisadores introduziram o ajuste de prompt de instrução, uma técnica de alinhamento eficiente de dados e parâmetros, resultando no Med-PaLM, que revelou respostas substancialmente mais precisas (92,9%) do que o Flan-PaLM (61,9%).
As respostas do Flan-PaLM também foram classificadas como potencialmente levando a resultados prejudiciais em 29,7% das vezes, na comparação com 5,9% das vezes para Med-PaLM. A imprecisão das respostas geradas pelo médico foi semelhante ao Med-PaLM em 5,7%.
Os pesquisadores reconheceram que muitas limitações ainda precisam ser superadas antes que os modelos sejam viáveis para uso clínico, e uma avaliação mais aprofundada é necessária, principalmente em relação à segurança, viés e equidade.
“Nossa esperança é que os sistemas LLM, como o Med-PaLM, projetados para aplicações médicas com segurança como prioridade, democratizem o acesso a informações médicas de alta qualidade, principalmente em regiões geográficas com um número limitado de profissionais médicos”, disse Vivek Natarajan, pesquisador de IA no Google e um dos pesquisadores do estudo, no LinkedIn.
“E, eventualmente, com mais desenvolvimento, validação rigorosa de segurança e eficácia, esperamos que o Med-PaLM encontre ampla aceitação nas vias de atendimento direto – aumentando nossos médicos, reduzindo sua carga administrativa, auxiliando na tomada de decisões clínicas, dando-lhes mais tempo para se concentrar nos pacientes e, em geral, tornar os cuidados de saúde mais acessíveis, equitativos, seguros e humanos.”
Em março, o Med-PaLM 2 da gigante da tecnologia foi testado em questões de estilo de exame de licenciamento médico dos EUA, apresentando um desempenho de nível “especialista”, com 85% ou mais de precisão. Ele também recebeu uma pontuação de aprovação no conjunto de dados MedMCQA, um conjunto de dados de múltipla escolha projetado para abordar questões de vestibular médicas do mundo real.
Um mês depois, a empresa anunciou que o Med-PaLM 2 estaria disponível para clientes selecionados do Google Cloud nas próximas semanas para compartilhar feedback, explorar casos de uso e realizar testes limitados.
A empresa também anunciou um novo Claims Acceleration Suite habilitado para IA, criado para ajudar no processo de autorização prévia e processamento de sinistros para seguros de saúde. A suíte converte dados não estruturados (conjuntos de dados não organizados de maneira predefinida) em dados estruturados (conjuntos de dados altamente organizados e facilmente decifráveis).