Strategies for extracting web data: practical case

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/59299

Registo completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Oliveira e Sá, Jorge	por
dc.contributor.author	Cunha, Paulo Ricardo Gonçalves da	por
dc.date.accessioned	2019-02-28T12:14:31Z	-
dc.date.issued	2018	-
dc.date.submitted	2018	-
dc.identifier.uri	https://hdl.handle.net/1822/59299	-
dc.description	Dissertação de mestrado integrado em Engineering and Management of Information Systems	por
dc.description.abstract	Nowadays, the task of collecting data from Web sources is becoming increasingly complex. This complexity arises, in part, from the large data volume (and continues to increase), as well as from the proliferation of platforms that make them available. Based on the previous assumption, this dissertation project had as main objective the identification of strategies that allow the extraction of data from Web sources. In order to reach this goal, the following tasks were defined: identification of tools and frameworks that aid in the extraction process of data, tests with the tools and frameworks identified, development of a framework that illustrates possible strategies for the extraction of data and finally the application of the proposed framework in a Practical Case. The proposed framework consists of a methodology with possible strategies for extracting data from web sources. The Practical Case was carried out on the ALGORITMI Research Centre of the University of Minho. In the first instance, the data of the authors in the ALGORITMI Research Centre are collected. Other data are then collected from other sources, such as their publications and later stored in a relational database. The collections and decisions taken during the study case are based on the application of the proposed framework. The insertion of the data obtained from different sources in a single location allows the creation of a Single Entry Point for reading data, that is, we have a single data source. The creation of this unique data source will allow the user to access all the data desired without the need to spend time trying to locate it The present work is organized in five chapters: introduction (where a brief description is given to the problem and objectives of the work), literary review (concepts, methodologies and strategies for obtaining data from Web sources), framework proposal, application of the proposed framework in a Practical Case that focuses on the ALGORITMI Research Centre and finally the conclusion (where some considerations are woven and some proposals for future work are presented).	por
dc.description.abstract	Nos dias de hoje, a tarefa de recolha de dados proveniente de fontes Web está a tornar-se cada vez mais complexa. Esta complexidade surge, em parte, do grande volume de dados existente (e que continua a aumentar), assim como, da proliferação de plataformas que os disponibilizam. Tendo por base o pressuposto anterior, este projeto de dissertação teve como principal objetivo a identificação de estratégias que possibilitam a extração de dados de fontes Web. Para alcançar esse objetivo foram definidas as seguintes tarefas: identificação de ferramentas e frameworks que auxiliam no processo de extração de dados, realização de testes com as ferramentas e frameworks identificados, desenvolvimento de um framework que ilustra as estratégias possíveis para a extração de dados e por fim a aplicação do framework proposto num caso de estudo. O framework proposto consiste numa metodologia com as estratégias possíveis para a extração de dados provenientes de fontes web. O caso de estudo realizado incide sobre o Centro ALGORITMI da Universidade do Minho. Em primeira instância procede-se à recolha dos dados dos autores existentes no Centro ALGORITMI. De seguida são recolhidos outros dados de outras fontes, tais como, as suas publicações e posteriormente armazenados numa base de dados relacional. As recolhas e decisões tomadas no decorrer do caso de estudo baseiam-se na aplicação do framework proposto. A inserção dos dados obtidos de diferentes fontes num único local permite a criação de um Single Entry Point para a leitura de dados, ou seja, passamos a possuir uma única fonte de dados. A criação desta fonte única de dados permitirá ao utilizador aceder aos dados que pretende sem a necessidade de despender muito tempo à sua procura. O presente trabalho encontra-se organizado em cinco capítulos sendo eles: introdução (onde é efetuada uma descrição ao problema e objetivos do trabalho), revisão literária (conceitos, metodologias e estratégias para obtenção de dados de fontes Web), framework (proposta e explicação da metodologia desenvolvida), caso de estudo (aplicação do framework proposto num caso de estudo que incide sobre o centro ALGORITMI) e conclusão (onde são tecidas consideração e apresentadas algumas propostas para trabalhos futuros).	por
dc.language.iso	eng	por
dc.rights	restrictedAccess	por
dc.subject	Wrapper	por
dc.subject	Scraping	por
dc.subject	Data extraction	por
dc.subject	Extração de dados	por
dc.title	Strategies for extracting web data: practical case	por
dc.type	masterThesis	eng
dc.identifier.tid	202169588	por
thesis.degree.grantor	Universidade do Minho	por
sdum.degree.grade	15 valores	por
sdum.uoei	Escola de Engenharia	por
dc.subject.fos	Engenharia e Tecnologia::Outras Engenharias e Tecnologias	por
Aparece nas coleções:	BUM - Dissertações de Mestrado DSI - Engenharia e Gestão de Sistemas de Informação

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
A72805_Dissertacao_MiEGSI_V2.6.pdf Acesso restrito!		2,8 MB	Adobe PDF	Ver/Abrir

Ver registo simples Sugerir correção Estatísticas