Sequence pattern mining in biochemical data

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/7257

Título:	Sequence pattern mining in biochemical data
Autor(es):	Ferreira, Pedro Gabriel Dias
Orientador(es):	Azevedo, Paulo J.
Data:	26-Nov-2007
Resumo(s):	O recente aumento exponencial do número de sequências genéticas acessíveis através de bases de dados especializadas na internet apresenta grandes decanos para a comunidade científica. Um desses decanos consiste na pesquisa eficiente e efectiva de padrões sequenciais, também chamados motins, entre um conjunto de sequencias de proteínas relacionadas. Tais padrões descrevem regiões que podem fornecer importantes indicações sobre a estrutura e funcionalidade das proteínas analisadas. Considerando os actuais avanços computacionais, e agora possível gerar simulações em larga escala do desenrolamento (holding") de proteínas. A análise dos dados referentes as estas simulações, para compreensão dos mecanismos das proteínas, representa outro desato de investigação. Esta tese aborda estes dois problemas. Quanto ao primeiro, foi dado ^ênfase ao desenvolvimento de algoritmos eficientes que suportam vários tipos de restrições e extraem diferentes tipos de padrões. Foram também estudadas a adequabilidade de diferentes medidas de significância na detecção de padrões relevantes e a aplicabilidade dos mesmos em dois contextos de classificação de sequências. Relativamente ao segundo problema, foi proposto um algoritmo de detecção de padrões aproximados os quais detectam comportamentos similares ou simétricos dos amimo ácidos durante determinados períodos da simulação. Para as diferentes propostas, os detalhes de implementação foram descritos e um conjunto de experiências realizado. Foi demonstrada uma melhoria de desempenho em relação a abordagens anteriores bem como a utilidade destas mesmas propostas na análise de dados bioquímicos. The recent increase in the number of complete genetic sequences freely available through specialized internet databases presents big challenges for the research community. One such challenge is the eficient and efective search of sequence patterns, also known as motifs, among a set of related protein sequences. Such patterns describe regions that may provide important insights about the structural and functional role of proteins. Considering today's computational advances, it is now possible to generate large scale protein unfolding simulations. Analyzing the data resulted from these simulations and understanding the protein mechanisms poses another research challenge. This thesis deals with these two problems. Regarding the first, we focus on the design of eficient algorithms that support several constraints and extract diferent types of patterns. The ability of diferent significance measures to highlight relevant patterns was evaluated and the applicability of sequence patterns in two sequence classification scenarios was explored. For the second problem, we developed an algorithm to extract approximate patterns, which detect similar and eventually symmetric behavior of the amino acids during parts of the simulation. Implementation details have been provided and experiments conducted. For each proposal it was demonstrated either a performance improvement over previous approaches or the respective applicability on biochemical data analysis.
Tipo:	Tese de doutoramento
Descrição:	Tese de Doutoramento em Informática na Especialidade de Inteligência Artificial
URI:	https://hdl.handle.net/1822/7257
Acesso:	Acesso restrito UMinho
Aparece nas coleções:	BUM - Teses de Doutoramento DI/CCTC - Teses de Doutoramento (phd thesis)

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Pedro Gabriel Dias Ferreira_capas.pdf Acesso restrito!		59,56 kB	Adobe PDF	Ver/Abrir
Thesis.pdf Acesso restrito!		2,55 MB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas