Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/83544

TítuloDesenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados
Autor(es)Lopes, Rita Sofia Conde
Orientador(es)Soares, Pedro
Soares-Silva, Isabel João
Palavras-chaveDeep Learning
Genoma
Machine Learning
Transportadores
Transpredict
Genome
Transporters
Data30-Mai-2022
Resumo(s)Por definição, o genoma de um indivíduo é todo o seu ácido desoxirribonucléico (DNA), podendo-se inferir o proteoma a partir do mesmo, uma vez que corresponde à porção de DNA que dá origem ao ácido ribonucleico mensageiro (mRNA). Sabe-se que, em todos os genomas analisados, cerca de 30% do DNA que é transcrito para mRNA codifica para proteínas transportadoras - transportoma. Este, por sua vez, refere-se ao conjunto das proteínas transportadoras de membrana, que apresentam um papel fundamental a nível biológico, tal como transporte de fármacos, e que constituem importantes alvos terapêuticos. Atualmente existe a necessidade de criar ferramentas automáticas que a partir de um proteoma completo permitam inferir quais prováveis proteínas transportadoras membranares. Devido a falta de ferramentas bioinformáticas integradas que auxiliem o estudo dos transportadores, surge a necessidade de criar novas ferramentas, como as apresentadas neste projeto. Para desenvolver estas tecnologias, usou-se por base três diferentes metodologias: i) plataformas disponíveis online, TMHMM, Pred-TMBB, Prosite e CDD, acedidas por meio de API’s e bibliotecas - TransPredict; ii) bibliotecas e ferramentas online usadas para gerar features para criar os datasets e os modelos de Machine Learning; iii) modelos de Deep Learning. Ao longo das etapas de desenvolvimento das diversas metodologias foram extraídas matrizes de confusão de todas as abordagens, de modo a simplicar a análise dos resultados obtidos. No caso dos modelos de ML e DL, fez-se, ainda, a avaliação dos modelos com os dados de teste, antes de serem aplicados nos genomas da Escherichia coli e da Saccharomyces cerevisiae, bem como uma análise exploratória para caracterizar a composição do dataset utilizado para treinar os modelos, principalmente de ML. De todas as abordagens testadas, as que obteveram melhores resultados foi a ferramenta TransPredict e os modelos de DL, com resultados próximos. Verificou-se que os modelos de ML ficaram aquém do esperado. Apesar de se ter detetado algumas limitações e havendo melhorias a implementar, a tarefa foi terminada com sucesso, e este projeto tem potencial para ser mais explorado e desenvolvido, uma vez que constitui um marco importante na investigação dos transportadores, nas diversas áreas de aplicação dos mesmos.
By definition, the genome of an individual it’s its entire deoxyribonucleic acid (DNA), and the proteome can be inferred from it, since it corresponds to the portion of DNA that gives rise to messenger ribonucleic acid (mRNA). It is known that, in all the analyzed genomes, about 30% of the DNA that is transcribed to mRNA encodes a transporter protein - transportome. This, in turn, refers to the set of membrane transport proteins, which play a fundamental role at the biological level, such as drug transport, and which constitute important therapeutic targets. Currently there is a need to create automatic tools that, from a complete proteome, allow inferring which likely membrane transport proteins are. These integrated bioinformatics tools will allow the study of transporter proteins at a large scale. To develop these technologies, three different methodologies used in this work: i) available online platforms, TMHMM, Pred-TMBB, Prosite and CDD, accessed through API’s and libraries - TransPredict; ii) libraries and online tools used to generate features to create datasets and Machine Learning models; iii) Deep Learning models. Throughout the development stages of the various methodologies, confusion matrices were extracted from all approaches, in order to simplify the analysis of the results obtained. In the case of the ML and DL models, the models were also evaluated with the test data, before being applied to the genomes of Escherichia coli and Saccharomyces cerevisiae, as well as an exploratory analysis to characterize the composition of the dataset used to train the models, mainly ML. Of all the approaches tested, the tool TransPredict and the DL models presented the best results, with similar results. It was found that the ML models were below expectations. Although some limitations were detected and are still improvements to be implemented, the task was successfully completed. Nevertheless this project has the potential to be further explored and developed, since it constitutes an important milestone in the investigation of transporters, in the different areas of application of the same.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado em Bioinformática
URIhttps://hdl.handle.net/1822/83544
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DBio - Dissertações de Mestrado/Master Theses

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Rita Sofia Conde Lopes.pdf1,95 MBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID