Computational methods for the identification of genetic variants in complex diseases

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/81105

Título:	Computational methods for the identification of genetic variants in complex diseases
Autor(es):	Antunes, Débora Alves
Orientador(es):	Rocha, Miguel Arrais, Joel Perdiz
Palavras-chave:	Complex diseases Type 2 Diabetes Genetics Genome-wide association study Machine learning Bioinformatics Doenças complexas Diabetes Tipo 2 Genética Estudos de associação no genoma completo Aprendizagem máquina Bioinformática
Data:	15-Mar-2021
Resumo(s):	Complex diseases, as Type 2 Diabetes, are not only affected by environmental factors but also by genetic factors involving multiple variants and their interactions. Even so, the known risk factors are not suffi cient to predict the manifestation of the disease. Some of these can be discovered with Genome-Wide Association Studies that detect associations between variants, such as Single-Nucleotide Polymorphisms, and phenotypes, but other approaches, like Machine Learning, are needed to identify their effects and interactions. Even though these methods can identify important patterns and produce good results, they are changeling to interpret. In this project, we developed a predictor for complex diseases that uses datasets from Genome-Wide Association Studies to help the identification of new genetic markers associated with Type 2 Diabetes. The pipeline developed integrates gene regions and protein-protein interaction networks in datasets of variants, extracts new features, and employs machine learning models to predict risk of disease. This study showed the models can predict the risk of disease and using gene regions and protein-protein interaction networks improves the models and provides new information about the biology of the disease. From these models it was possible to identify new genes and pathways of interest which, with further investigation, could lead to the development of new strategies for diagnosis, prevention and treatment of Type 2 Diabetes. Doenças complexas, como Diabetes Tipo 2, são tanto causadas por fatores ambientais como por fatores genéticos que envolvem múltiplas variantes e as interações entre elas. Mesmo assim, os fatores de risco conhecidos não são o suficiente para prever a manifestação da doença. Alguns destes fatores podem ser descobertos em Genome-Wide Association Studies que detetam associações entre variantes, como polimorfismos num único nucleotídeo, e fenótipos, contudo são necessárias outras abordagens, como por exemplo Aprendizagem Máquina, para identificar os seus efeitos e interações. Mesmo quando estes métodos conseguem identificar padrões e obter bons resultados, estes são difíceis de interpretar. Neste trabalho, desenvolvemos um algoritmo para doenças complexas que utiliza dados obtidos em Genome-Wide Association Studies para auxiliar na identificação de novos marcadores genéticos as sociados à Diabetes Tipo 2. A abordagem desenvolvida combina conjuntos de dados de variantes com a infomação das regiões de genes e redes de interações entre proteínas, extrai novas características, e utiliza modelos aprendizagem de máquina para prever o risco de doença. Este trabalho mostra que os modelos conseguem prever o risco de doença e que o uso de genes e de redes de interação entre proteínas melhora os seus resultados, assim como também fornecem novas informações sobre a biologia da doença. Usando esta abordagem é possivel identificar novos genes e redes metabólicas de interece, que com investigação adicional, podem levar a criação de novas estratégias de diagnóstico, prevenção e tratamento da Diabetes Tipo 2.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Bioinformática
URI:	https://hdl.handle.net/1822/81105
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado CEB - Dissertações de Mestrado / MSc Dissertations