Um premiado grande modelo de linguagem para dados genômicos demonstrou sua capacidade de gerar sequências genéticas que se assemelham muito às variantes do mundo real do SARS-CoV-2, o vírus por trás da COVID-19. Chamado GenSLMs, o modelo, que no ano passado ganhou o prêmio especial Gordon Bell pela investigação da COVID-19 baseada em computação de alto desempenho, foi treinado em um conjunto de dados de sequências de nucleótidos – os blocos de construção do DNA e do RNA – e foi desenvolvido por pesquisadores do Argonne National Laboratory, da NVIDIA, da Universidade de Chicago e de vários outros colaboradores acadêmicos e comerciais.
Quando os pesquisadores analisaram as sequências de nucleotídeos geradas pelos GenSLMs, eles descobriram que as características específicas das sequências geradas por IA correspondiam estreitamente às subvariantes Eris e Pirola do mundo real que prevaleceram este ano – embora a IA só tenha sido treinada em COVID-19 genomas de vírus do primeiro ano da pandemia.
“O processo generativo do nosso modelo é extremamente ingênuo, sem qualquer informação específica ou restrições sobre a aparência de uma nova variante da COVID”, diz Arvind Ramanathan, pesquisador principal do projeto e biólogo computacional em Argonne. “A capacidade da IA de prever os tipos de mutações genéticas presentes em cepas recentes da COVID – apesar de ter visto apenas as variantes Alfa e Beta durante o treinamento – é uma forte validação de suas capacidades.”
Além de gerar suas próprias sequências, os GenSLMs também podem classificar e agrupar diferentes sequências do genoma da COVID, distinguindo entre variantes. Em uma demonstração que será lançada em breve no NGC, o centro de software acelerado da NVIDIA, os usuários poderão explorar visualizações da análise dos GenSLMs dos padrões evolutivos de várias proteínas dentro do genoma viral da COVID-19.
“Com a implementação do modelo GenSLMs, torna-se evidente o impacto significativo da tecnologia no setor da saúde, onde sua influência é crucial para salvar vidas de maneira eficaz. A NVIDIA, comprometida com essa causa, assume a missão contínua de conduzir pesquisas centradas nesse enfoque, buscando contribuir com novas descobertas que impulsionem o avanço científico”, destaca Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina.
Lendo nas entrelinhas, descobrindo padrões evolutivos
Uma característica fundamental dos GenSLMs é sua capacidade de interpretar longas sequências de nucleotídeos – representadas com sequências das letras A, T, G e C no DNA, ou A, U, G e C no RNA – da mesma forma que um LLM treinado em texto em inglês interpretaria uma frase. Esta capacidade permite ao modelo compreender a relação entre diferentes áreas do genoma, que nos coronavírus consiste em cerca de 30.000 nucleótidos.
Na demonstração, os usuários poderão escolher entre oito variantes diferentes da COVID-19 para entender como o modelo de IA rastreia mutações em várias proteínas do genoma viral. A visualização mostra acoplamentos evolutivos entre as proteínas virais – destacando quais fragmentos do genoma provavelmente serão vistos em uma determinada variante.
“Compreender como as diferentes partes do genoma estão a co-evoluir dá-nos pistas sobre como o vírus pode desenvolver novas vulnerabilidades ou novas formas de resistência”, diz Ramanathan. “Observar a compreensão do modelo sobre quais mutações são particularmente fortes em uma variante pode ajudar os cientistas em tarefas posteriores, como determinar como uma cepa específica pode escapar do sistema imunológico humano.”
GenSLMs foi treinado em mais de 110 milhões de sequências de genoma procariótico e ajustado com um conjunto de dados global de cerca de 1,5 milhão de sequências virais de COVID usando dados de código aberto do Centro de Recursos de Bioinformática Bacteriana e Viral. No futuro, o modelo poderá ser ajustado nos genomas de outros vírus ou bactérias, permitindo novas aplicações de investigação.
Para treinar o modelo, os pesquisadores usaram supercomputadores NVIDIA A100 Tensor Core alimentados por GPU, incluindo o sistema Polaris da Argonne, o Perlmutter do Departamento de Energia dos EUA e o Selene da NVIDIA.
O prêmio especial Gordon Bell da equipe de pesquisa GenSLMs foi concedido na conferência SC22 realizada no ano passado pela Association for Computing Machinery. No SC23, que acontece esta semana em Denver, a NVIDIA está compartilhando uma nova gama de trabalhos inovadores no campo da computação acelerada.
O NVIDIA Research é composto por centenas de cientistas e engenheiros em todo o mundo, com equipes focadas em tópicos como IA, computação gráfica, visão computacional, carros autônomos e robótica.