Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/81105
Título: | Computational methods for the identification of genetic variants in complex diseases |
Autor(es): | Antunes, Débora Alves |
Orientador(es): | Rocha, Miguel Arrais, Joel Perdiz |
Palavras-chave: | Complex diseases Type 2 Diabetes Genetics Genome-wide association study Machine learning Bioinformatics Doenças complexas Diabetes Tipo 2 Genética Estudos de associação no genoma completo Aprendizagem máquina Bioinformática |
Data: | 15-Mar-2021 |
Resumo(s): | Complex diseases, as Type 2 Diabetes, are not only affected by environmental factors but also by genetic
factors involving multiple variants and their interactions. Even so, the known risk factors are not suffi cient to predict the manifestation of the disease. Some of these can be discovered with Genome-Wide
Association Studies that detect associations between variants, such as Single-Nucleotide Polymorphisms,
and phenotypes, but other approaches, like Machine Learning, are needed to identify their effects and
interactions. Even though these methods can identify important patterns and produce good results, they
are changeling to interpret.
In this project, we developed a predictor for complex diseases that uses datasets from Genome-Wide
Association Studies to help the identification of new genetic markers associated with Type 2 Diabetes. The
pipeline developed integrates gene regions and protein-protein interaction networks in datasets of variants,
extracts new features, and employs machine learning models to predict risk of disease.
This study showed the models can predict the risk of disease and using gene regions and protein-protein
interaction networks improves the models and provides new information about the biology of the disease.
From these models it was possible to identify new genes and pathways of interest which, with further
investigation, could lead to the development of new strategies for diagnosis, prevention and treatment of
Type 2 Diabetes. Doenças complexas, como Diabetes Tipo 2, são tanto causadas por fatores ambientais como por fatores genéticos que envolvem múltiplas variantes e as interações entre elas. Mesmo assim, os fatores de risco conhecidos não são o suficiente para prever a manifestação da doença. Alguns destes fatores podem ser descobertos em Genome-Wide Association Studies que detetam associações entre variantes, como polimorfismos num único nucleotídeo, e fenótipos, contudo são necessárias outras abordagens, como por exemplo Aprendizagem Máquina, para identificar os seus efeitos e interações. Mesmo quando estes métodos conseguem identificar padrões e obter bons resultados, estes são difíceis de interpretar. Neste trabalho, desenvolvemos um algoritmo para doenças complexas que utiliza dados obtidos em Genome-Wide Association Studies para auxiliar na identificação de novos marcadores genéticos as sociados à Diabetes Tipo 2. A abordagem desenvolvida combina conjuntos de dados de variantes com a infomação das regiões de genes e redes de interações entre proteínas, extrai novas características, e utiliza modelos aprendizagem de máquina para prever o risco de doença. Este trabalho mostra que os modelos conseguem prever o risco de doença e que o uso de genes e de redes de interação entre proteínas melhora os seus resultados, assim como também fornecem novas informações sobre a biologia da doença. Usando esta abordagem é possivel identificar novos genes e redes metabólicas de interece, que com investigação adicional, podem levar a criação de novas estratégias de diagnóstico, prevenção e tratamento da Diabetes Tipo 2. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Bioinformática |
URI: | https://hdl.handle.net/1822/81105 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Debora Alves Antunes.pdf | 2,21 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons