Um estudo nacional recente propôs uma solução computacional para comparação de sequências de DNA de cadeia longa. O resultado foi a mais rápida comparação de cromossomos entre um ser humano e um chimpanzé, no caso, especificamente entre o cromossomo-1 humano com o cromossomo-1 do chimpanzé. Esse novo código desenvolvido poderá auxiliar pesquisas na área de saúde e medicamentos a encontrar respostas assertivas no diagnóstico de patologias e desenvolvimento de tratamentos em menos tempo. O pesquisador brasileiro Marco Figueiredo Jr. (UnB), junto dos pesquisadores Edans Sandes (UnB), João Paulo Navarro (NVIDIA) e George Teodoro (UFMG) assinam o estudo coordenado pela pesquisadora Alba Cristina Magalhães Alves de Melo (UnB), pioneira nos estudos sobre o assunto no Brasil.
Com a solução brasileira, leva apenas 11 minutos para obter a impressionante taxa de 82.822 GCUPS (bilhões de células atualizadas por segundo). Esse resultado é, até o momento, o melhor desempenho já registrado. Para alcançar essa façanha, os pesquisadores utilizaram um cluster com 512 GPUs NVIDIA V100. O estudo foi apresentado na edição de 2020 da conferência PDP (Euromicro Conference on Parallel, Distributed and Network-Based Processing) em Västerås, Suécia, e publicado na prestigiada revista IEEE Transactions on Parallel and Distributed Systems.
“Aplicações em Bioinformática usualmente requerem algoritmos paralelos e dispositivos com alto poder computacional para que se obtenha um desempenho expressivo. Nesta pesquisa, conseguimos aliar estes dois aspectos para realizar a comparação de sequências longas de DNA em placas gráficas. A solução proposta possui duas estratégias de distribuição de carga de trabalho entre as GPUs e foi testada em dispositivos da NVIDIA de diversas arquiteturas. Os resultados obtidos mostram que ainda é possível avançar nas pesquisas neste tópico, visando projetar soluções compatíveis com ambientes de diferentes portes, mas sempre buscando aprimorar o desempenho em cada cenário”, explica um dos pesquisadores, Marco Figueirêdo.
A análise genômica é o ponto de encontro entre a biologia, a ciência da computação e a ciência de dados. Nos últimos anos, líderes do setor de bioinformática e instituições de pesquisa ao redor do mundo contam com ferramentas aceleradas para análise genômica em GPUs NVIDIA. Essa tecnologia tem impulsionado a identificação de variantes genéticas que podem revelar novas descobertas sobre a saúde humana.
“Embora a comparação entre sequências biológicas seja uma tarefa bastante conhecida em aplicações de bioinformática, ainda exige soluções computacionais paralelizáveis e hardware de alto desempenho. Por isso o uso de tecnologia NVIDIA Enterprise se mostra essencial para os resultados surpreendentes que os pesquisadores brasileiros demonstraram”, afirma Marcio Aguiar, diretor NVIDIA Enterprise para América Latina. “É sempre uma grande alegria auxiliar pesquisadores brasileiros na quebra de barreiras científicas. O que mostra mais uma vez o grande potencial do país na inovação e na saúde.”
Sequenciamento genético
As GPUs NVIDIA fazem parte da arquitetura computacional utilizada para executar soluções desse tipo. Além disso, alguns algoritmos já estão previstos, como o Smith-Waterman (SW), que permite obter um resultado ótimo na comparação entre as sequências. Para comparar o cromossomo-1 humano com o cromossomo-1 de um chimpanzé (249 milhões de pares de bases – MBP x 228 MBP), são necessários pelo menos 240 petabytes de memória. Esta comparação SW foi considerada inviável em 2008 por conta da tecnologia utilizada até então.
Ao longo dos anos, a paralelização das ferramentas de comparação de sequências SW para longas sequências de DNA têm sido um grande desafio, exigindo o uso de diversos dispositivos e otimizações sofisticadas. A poda é uma dessas otimizações, que pode reduzir consideravelmente a quantidade de computação utilizada. O CUDAlign, código que utiliza a linguagem de programação de GPUs da NVIDIA, o CUDA, propõe uma implementação com poda em bloco (BP), que toma a decisão de poda com base em blocos de células, usando apenas uma GPU. O SW# implementa a mesma técnica BP proposta pelo CUDAlign em múltiplas GPUs, mas é restrito a apenas dois dispositivos.
No estudo brasileiro, duas estratégias MultiBP são propostas. Na abordagem estática com compartilhamento de pontuação, a carga de trabalho é distribuída estaticamente para as GPUs, e a melhor pontuação é enviada para GPUs vizinhas para simular uma visão global. Na estratégia dinâmica, a execução é dividida em ciclos e a carga de trabalho é atribuída dinamicamente, de acordo com a taxa de processamento das GPUs. O MultiBP foi integrado ao MASA-CUDAlign e testado em plataformas homogêneas e heterogêneas, com diferentes arquiteturas de GPU NVIDIA. Os melhores resultados foram obtidos principalmente pelas abordagens estática e dinâmica, respectivamente. O estudo também mostrou que o módulo de decisão é capaz de selecionar a melhor estratégia na maioria dos casos.
“O código desenvolvido já foi compartilhado publicamente para que possa auxiliar pesquisas relevantes para a saúde humana em todo o mundo. Como desafio futuro, pretendemos melhorar nossas estratégias MultiBP identificando quais características têm mais impacto nas abordagens estáticas e dinâmicas. Também investigaremos se há cenários em que seja benéfico para que o modo dinâmico seja revertido para estático”, conclui Figueirêdo.