Pesquisadores descobriram que ferramentas de processamento de linguagem natural (NLP, na sigla em inglês) podem prever a sobrevivência de pacientes com câncer usando seu documento de consulta oncologista inicial, sem dados adicionais, de acordo com um estudo publicado no mês passado no JAMA Network Open.
O câncer é uma causa significativa de morbidade e mortalidade, criando cargas significativas de saúde em todo o mundo. Melhorar os resultados dos cuidados e dos pacientes é o assunto de um extenso corpo de pesquisa médica, mas prever os resultados para pacientes com câncer e avançar nesses objetivos pode ser um desafio.
Os pesquisadores explicaram que prever as taxas de sobrevivência para pacientes com câncer depende de vários fatores, como o local do câncer e a histologia, e os cálculos são feitos retrospectivamente. O erro humano também pode entrar em jogo, pois os oncologistas podem se esforçar para levar em consideração considerações adicionais, como idade, ao prever a sobrevivência do câncer para um paciente individual.
O aprendizado de máquina (ML) foi aplicado para prever vários estados e resultados de doenças, incluindo câncer, mas os autores do estudo observaram que há uma lacuna na literatura sobre a aplicação de métodos de NLP na pesquisa do câncer em geral e, mais especificamente, na sobrevivência ao câncer predição.
Para resolver isso, a equipe de pesquisa procurou desenvolver e avaliar modelos neurais de NLP para prever a sobrevida entre pacientes com câncer geral usando seus documentos iniciais de consulta oncológica, que contêm informações coletadas rotineiramente durante a primeira consulta. Eles também afirmaram que, ao fazê-lo, pretendiam criar uma ferramenta que pudesse prever o resultado de mais de um tipo de câncer e não depender de dados muitas vezes limitados ou indisponíveis, que são desafios enfrentados ao usar outros modelos.
Eles começaram reunindo dados prognósticos retrospectivos de 47.625 pacientes que iniciaram o tratamento do câncer e tiveram documentos de consulta oncologista gerados dentro de 180 dias após o diagnóstico em seis hospitais em British Columbia, Canadá, de 1º de abril de 2011 a 31 de dezembro de 2016.
Os dados de mortalidade desses pacientes foram atualizados até 6 de abril de 2022, e pacientes com mais de um tipo de câncer foram excluídos do estudo. A sobrevivência ao câncer foi calculada como o número de meses entre a criação do documento selecionado e a data de morte registrada do paciente ou 6 de abril de 2022, quando os dados de mortalidade foram extraídos pela última vez.
Os documentos da consulta foram então pré-processados para serem usados pelos modelos, e rótulos binários foram criados para indicar se o paciente sobreviveu aos seis, 36 ou 60 meses ou não. Esse processamento de dados foi necessário porque os modelos de linguagem são usados para atribuir probabilidades à ordem das palavras, ajudando-os a prever uma determinada sequência de palavras ou determinar se uma sequência é mais provável do que outra, explicaram os pesquisadores.
Esta tarefa pode ser aplicada para prever resultados binários de sobrevivência. Para avaliar se um tipo de modelo de linguagem teria um desempenho significativamente melhor do que outro, os pesquisadores compararam quatro deles: um NLP não neural, uma rede neural convolucional (CNN), um modelo de memória de longo prazo (LSTM) e um modelo bidirecional. representações do codificador do modelo de transformadores (BERT).
No geral, 87% da coorte do estudo sobreviveram seis meses, 65,4% sobreviveram 36 meses e 58,5% sobreviveram 60 meses após a consulta inicial.
O desempenho do modelo foi avaliado em termos de precisão de previsão e quantificado usando a área sob a curva. Todos os modelos alcançaram alto desempenho, mas diferenças foram observadas nos intervalos de sobrevivência. Os modelos alcançaram uma AUC média de 0,928 para prever a sobrevida de seis meses, 0,918 para sobrevida de 36 meses e 0,918 para sobrevida de 60 meses.
Esses desempenhos foram comparáveis ou superiores aos de outros modelos, indicaram os pesquisadores, sugerindo que pode ser possível desenvolver uma ferramenta clinicamente útil para a previsão de sobrevida que não se limita a um tipo de câncer e pode utilizar dados prontamente acessíveis.