Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/84140
Título: | A meta-learning approach for selecting machine learning algorithms |
Autor(es): | Monteiro, José Pedro Santos |
Orientador(es): | Fernandes, João M. Duarte, Francisco J. |
Palavras-chave: | Machine learning Meta-learning Metadata Machine learning algorithms selection Classification Data mining Metadados Seleção de algoritmos Problemas de classificação Análise de dados |
Data: | 16-Jun-2020 |
Resumo(s): | One of the major challenges in Machine Learning is to investigate the capabilities and lim itations of the existing algorithms to identify when one algorithm is more adequate than
another to solve particular problems. Traditional approaches to predicting the performance
of algorithms often involve costly trial-and-error procedures or expert knowledge, which is
not always straightforward to acquire. Thus, the main goal of this dissertation is to support
beginners or even experienced data scientists by automatically indicating which classifica tion algorithm is most suitable for their datasets.
This dissertation proposes the use of Meta-Learning as a possible solution to the above mentioned problem. In this respect, we introduced a novel framework for the automatic
generation of meta-datasets. Taking advantage of the developed framework, several clas sification datasets from public sources were used. The result is the meta-dataset for the
experiment of this research project.
Concerning the goal of forecasting the best model for a classification dataset, two different
solutions are presented: the first toward binary classification and the second on multiclass
classification. A variety of Machine Learning algorithms are tested and compared through
cross-validation.
The experiment confirms the feasibility of applying Meta-Learning to select the algorithm
that is expected to obtain the best performance for classification problems. Um dos principais desafios do Machine Learning passa por investigar os recursos e as limitações dos algoritmos existentes para identificar quando é que um algoritmo é mais adequado do que outro para resolver um determinado problema. Por norma, as abordagens tradicionais envolvem procedimentos de tentativa e erro, que requerem muito tempo ou conhecimento especializado, o que nem sempre e fácil de adquirir. Assim, a presente dissertação pretende auxiliar iniciantes, indivíduos que não são cientistas de dados e até cientistas de dados experientes, indicando automaticamente qual o algoritmo que é mais vantajoso para os seus conjuntos de dados de classificação. O presente trabalho propõe a utilização de Meta-Learning como uma possível solução para o problema acima mencionado. Numa primeira etapa é apresentada uma Framework para extração automática de meta-características informativas. Tirando recurso da Framework desenvolvida, foram utilizados vários conjuntos de dados de classificação de fontes públicas, gerando assim o meta conjunto de dados para o experimento desta dissertação. Relativamente a meta previsão do melhor modelo a utilizar, foram abordadas duas soluções: uma primeira focada em classificação binária e a segunda em classificação com múltiplas classes. Em ambas foram testados e comparados vários algoritmos de Machine Learning através de validação cruzada. O experimento confirmou a viabilidade da aplicação de Meta-Learning para a seleção de algoritmos com melhor desempenho em problemas de classificação. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Computer Science |
URI: | https://hdl.handle.net/1822/84140 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Jose Pedro Santos Monteiro.pdf | 1,51 MB | Adobe PDF | Ver/Abrir |