banner
Lar / blog / Múltiplo
blog

Múltiplo

Mar 11, 2024Mar 11, 2024

Scientific Reports volume 12, Artigo número: 10487 (2022) Citar este artigo

1174 acessos

3 citações

2 Altmétrico

Detalhes das métricas

Este artigo foi atualizado

As interações proteína-proteína (PPI) são cruciais para o funcionamento das proteínas, no entanto, prever resíduos nas interfaces PPI a partir da sequência proteica continua a ser um problema desafiador. Além disso, anotações funcionais baseadas em estrutura, como as anotações de interface PPI, são escassas: apenas para cerca de um terço de todas as anotações de interface PPI baseadas em resíduos de estruturas proteicas estão disponíveis. Se quisermos utilizar uma estratégia de aprendizagem profunda, temos que superar o problema da disponibilidade limitada de dados. Aqui usamos uma estratégia de aprendizagem multitarefa que pode lidar com dados ausentes. Começamos com a arquitetura do modelo multitarefa e a adaptamos para lidar cuidadosamente com os dados ausentes na função de custo. Como tarefas de aprendizagem relacionadas incluímos previsão de estrutura secundária, acessibilidade a solventes e resíduos enterrados. Nossos resultados mostram que a estratégia de aprendizagem multitarefa supera significativamente as abordagens de tarefa única. Além disso, apenas a estratégia multitarefa é capaz de aprender efetivamente sobre um conjunto de dados estendido com dados de características estruturais, sem anotações adicionais de PPI. A configuração multitarefa torna-se ainda mais importante se a fração de anotações PPI se tornar muito pequena: o aluno multitarefa treinado em apenas um oitavo das anotações PPI – com extensão de dados – atinge o mesmo desempenho que o aluno que realiza uma única tarefa em todas as anotações PPI. Assim, mostramos que a estratégia de aprendizagem multitarefa pode ser benéfica para um pequeno conjunto de dados de treinamento onde as propriedades funcionais de interesse da proteína são apenas parcialmente anotadas.

Os bancos de dados de sequências de proteínas1 continuam a crescer rapidamente e as informações estruturais estão se tornando mais prontamente disponíveis2. No entanto, anotações funcionais precisas baseadas na estrutura da proteína, como locais de ligação às proteínas, ainda são escassas e difíceis de prever. Portanto, técnicas computacionais são utilizadas para prever diversas propriedades estruturais funcionais de proteínas com base na sequência proteica. Uma dessas propriedades é a interface de interação física entre proteínas que são cruciais para o funcionamento de uma proteína4. A interação entre proteínas é necessária em muitos processos biológicos, como replicação de DNA, transcrição de RNA, transdução de sinal, controle de processos celulares, transporte de proteínas e metabolismo5,6,7,8,9. Além disso, muitas doenças podem estar relacionadas à deformação da interface de uma proteína10,11. Prever o conjunto de resíduos em uma proteína que interage com outras proteínas é uma tarefa importante, mas ainda desafiadora12. Além disso, as informações estruturais sobre os resíduos que compõem a interface são escassas. O tamanho do banco de dados anotado PPI é apenas uma pequena fração do tamanho do banco de dados anotado estrutural. O tamanho do banco de dados estrutural anotado, por sua vez, é uma pequena fração do tamanho do banco de dados de sequências de proteínas (ver Fig. 1). Além disso, existem problemas como a previsão de interfaces de epítopos (ligação de anticorpos), para os quais estão disponíveis ainda menos dados rotulados . Para treinar com eficiência redes neurais profundas para a previsão da interface PPI e outras tarefas com pouca disponibilidade de anotação, temos que superar o problema do tamanho limitado do conjunto de dados de treinamento.

Comparação do número de entradas disponíveis em bancos de dados sobre sequência de proteínas, estrutura de proteínas e anotações funcionais baseadas em estrutura específica: interface de interação proteína-proteína (PPI). Esses resultados são baseados, respectivamente, nas entradas de proteínas disponíveis no banco de dados UniProtKB/TrEMBL, nas entradas de proteínas disponíveis no Protein Data Bank (PDB) e nas entradas de proteínas com anotações de interface PPI. Observe que o eixo y é logarítmico.

Devido aos sucessos da aprendizagem profunda em áreas como o processamento de linguagem natural, as abordagens de aprendizagem profunda são cada vez mais utilizadas e têm mostrado grandes sucessos na previsão de características estruturais de proteínas . Na aprendizagem profunda, múltiplas camadas conectadas, juntamente com seus parâmetros, prevêem a saída dos recursos de entrada correspondentes18. Abordagens e modelos como redes neurais convolucionais (CNN), redes neurais residuais (ResNet), redes neurais recorrentes (RNN), redes de memória de longo e curto prazo (LSTM), transformadores e alunos multitarefa aparecem em métodos recentes de previsão de estrutura 15,16 ,19,20,21,22. Hanson et al.16 utilizaram, entre outros, ResNets ultraprofundos no modelo SPOT-1D que foram capazes de capturar interações não locais entre resíduos que estão próximos apenas na estrutura da proteína e não na sequência da proteína16. Heffernan et al.21 usaram RNNs bidirecionais LSTM e mostraram que este método é útil para capturar interações de longo alcance, especialmente para resíduos com grande número de contatos de longo alcance. Recentemente comparamos o uso de diferentes arquiteturas de redes neurais para a predição de interfaces de proteínas . Além disso, transformadores têm sido utilizados com sucesso na linguagem das proteínas24,25. Nos transformadores, as informações aprendidas a partir de dados de domínio geral, como sequências de proteínas, são transferidas para dados específicos de domínio, como previsão de estrutura secundária. Outra estratégia na qual a informação é transferida é a aprendizagem multitarefa.