Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/84495
Título: | Development of a recommendation system for scientific literature based on deep learning |
Autor(es): | Silva, Tiago Rafael Ferreira Miranda da |
Orientador(es): | Rocha, Miguel Pereira, Vítor |
Palavras-chave: | Deep learning Document classification Machine learning Biomedical text mining Text mining Aprendizagem profunda Classificação de documentos Aprendizagem máquina Mineração de texto biomédico Mineração de texto |
Data: | 15-Dez-2022 |
Resumo(s): | The previous few decades have seen an enormous volume of articles from the scientific commu nity on the most diverse biomedical topics, making it extremely challenging for researchers to
find relevant information. Methods like Machine Learning (ML) and Deep Learning (DL) have
been used to create tools that can speed up this process. In that context, this work focuses
on examining the performance of different ML and DL techniques when classifying biomedical
documents, mainly regarding their relevance to given topics. To evaluate the different techniques,
the dataset from the BioCreative VI Track 4 challenge was used. The objective of the challenge
was to identify documents related to protein-protein interactions altered by mutations, a topic
extremely important in precision medicine. Protein-protein interactions play a crucial role in the
cellular mechanisms of all living organisms, and mutations in these interaction sites could be
indicative of diseases.
To handle the data to be used in training, some text processing methods were implemented
in the Omnia package from OmniumAI, the host company of this work. Several preprocessing
and feature extraction methods were implemented, such as removing stopwords and TF-IDF,
which may be used in other case studies. They can be used either with generic text or biomedical
text. These methods, in conjunction with ML pipelines already developed by the Omnia team,
allowed the training of several traditional ML models.
We were able to achieve a small improvement on performance, compared to the challenge
baseline, when applying these traditional ML models on the same dataset. Regarding DL, testing
with a CNN model, it was clear that the BioWordVec pre-trained embedding achieved the best
performance of all pre-trained embeddings. Additionally, we explored the application of more
complex DL models. These models achieved a better performance than the best challenge
submission. BioLinkBERT managed an improvement of 0.4 percent points on precision, 4.9
percent points on recall, and 2.2 percent points on F1. As décadas anteriores assistiram a um enorme aumento no volume de artigos da comunidade científica sobre os mais diversos tópicos biomédicos, tornando extremamente difícil para os investigadores encontrar informação relevante. Métodos como Aprendizagem Máquina (AM) e Aprendizagem Profunda (AP) tem sido utilizados para criar ferramentas que podem acelerar este processo. Neste contexto, este trabalho centra-se na avaliação do desempenho de diferentes técnicas de AM e AP na classificação de documentos biomédicos, principalmente no que diz respeito à sua relevância para determinados tópicos. Para avaliar as diferentes técnicas, foi utilizado o conjunto de dados do desafio BioCreative VI Track 4. O objectivo do desafio era identificar documentos relacionados com as interações proteína-proteína alteradas por mutações, um tópico extremamente importante na medicina de precisão. As interacções proteína-proteína desempenham um papel crucial nos mecanismos celulares de todos os organismos vivos, e as mutações nestes locais de interacção podem ser indicativas de doenças. Para tratar os dados a utilizar no treino, alguns métodos de processamento de texto foram implementados no pacote Omnia da OmniumAI, a empresa anfitriã deste trabalho. Foram implementados vários métodos de pré-processamento e extracção de características, tais como a remoção de palavras irrelevantes e TF-IDF, que podem ser utilizados em outros casos de estudos, tanto com texto genérico quer com texto biomédico. Estes métodos, em conjunto com as pipelines de AM já desenvolvidas pela equipa da Omnia, permitiram o treino de vários modelos tradicionais de AM. Conseguimos alcançar uma pequena melhoria no desempenho, em comparação com a linha de referência do desafio, ao aplicar estes modelos tradicionais de AM no mesmo conjunto de dados. Relativamente a AP, testando com um modelo CNN, ficou claro que o embedding pré-treinado BioWordVec alcançou o melhor desempenho de todos os embeddings pré-treinados. Adicionalmente, exploramos a aplicação de modelos de AP mais complexos. Estes modelos alcançaram um melhor desempenho do que a melhor submissão do desafio. BioLinkBERT conseguiu uma melhoria de 0,4 pontos percentuais na precisão, 4,9 pontos percentuais no recall, e 2,2 pontos percentuais em F1. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Bioinformatics |
URI: | https://hdl.handle.net/1822/84495 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Tiago Rafael Ferreira Miranda da Silva.pdf | 1,11 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons