Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/59299

Registo completo
Campo DCValorIdioma
dc.contributor.advisorOliveira e Sá, Jorgepor
dc.contributor.authorCunha, Paulo Ricardo Gonçalves dapor
dc.date.accessioned2019-02-28T12:14:31Z-
dc.date.issued2018-
dc.date.submitted2018-
dc.identifier.urihttps://hdl.handle.net/1822/59299-
dc.descriptionDissertação de mestrado integrado em Engineering and Management of Information Systemspor
dc.description.abstractNowadays, the task of collecting data from Web sources is becoming increasingly complex. This complexity arises, in part, from the large data volume (and continues to increase), as well as from the proliferation of platforms that make them available. Based on the previous assumption, this dissertation project had as main objective the identification of strategies that allow the extraction of data from Web sources. In order to reach this goal, the following tasks were defined: identification of tools and frameworks that aid in the extraction process of data, tests with the tools and frameworks identified, development of a framework that illustrates possible strategies for the extraction of data and finally the application of the proposed framework in a Practical Case. The proposed framework consists of a methodology with possible strategies for extracting data from web sources. The Practical Case was carried out on the ALGORITMI Research Centre of the University of Minho. In the first instance, the data of the authors in the ALGORITMI Research Centre are collected. Other data are then collected from other sources, such as their publications and later stored in a relational database. The collections and decisions taken during the study case are based on the application of the proposed framework. The insertion of the data obtained from different sources in a single location allows the creation of a Single Entry Point for reading data, that is, we have a single data source. The creation of this unique data source will allow the user to access all the data desired without the need to spend time trying to locate it The present work is organized in five chapters: introduction (where a brief description is given to the problem and objectives of the work), literary review (concepts, methodologies and strategies for obtaining data from Web sources), framework proposal, application of the proposed framework in a Practical Case that focuses on the ALGORITMI Research Centre and finally the conclusion (where some considerations are woven and some proposals for future work are presented).por
dc.description.abstractNos dias de hoje, a tarefa de recolha de dados proveniente de fontes Web está a tornar-se cada vez mais complexa. Esta complexidade surge, em parte, do grande volume de dados existente (e que continua a aumentar), assim como, da proliferação de plataformas que os disponibilizam. Tendo por base o pressuposto anterior, este projeto de dissertação teve como principal objetivo a identificação de estratégias que possibilitam a extração de dados de fontes Web. Para alcançar esse objetivo foram definidas as seguintes tarefas: identificação de ferramentas e frameworks que auxiliam no processo de extração de dados, realização de testes com as ferramentas e frameworks identificados, desenvolvimento de um framework que ilustra as estratégias possíveis para a extração de dados e por fim a aplicação do framework proposto num caso de estudo. O framework proposto consiste numa metodologia com as estratégias possíveis para a extração de dados provenientes de fontes web. O caso de estudo realizado incide sobre o Centro ALGORITMI da Universidade do Minho. Em primeira instância procede-se à recolha dos dados dos autores existentes no Centro ALGORITMI. De seguida são recolhidos outros dados de outras fontes, tais como, as suas publicações e posteriormente armazenados numa base de dados relacional. As recolhas e decisões tomadas no decorrer do caso de estudo baseiam-se na aplicação do framework proposto. A inserção dos dados obtidos de diferentes fontes num único local permite a criação de um Single Entry Point para a leitura de dados, ou seja, passamos a possuir uma única fonte de dados. A criação desta fonte única de dados permitirá ao utilizador aceder aos dados que pretende sem a necessidade de despender muito tempo à sua procura. O presente trabalho encontra-se organizado em cinco capítulos sendo eles: introdução (onde é efetuada uma descrição ao problema e objetivos do trabalho), revisão literária (conceitos, metodologias e estratégias para obtenção de dados de fontes Web), framework (proposta e explicação da metodologia desenvolvida), caso de estudo (aplicação do framework proposto num caso de estudo que incide sobre o centro ALGORITMI) e conclusão (onde são tecidas consideração e apresentadas algumas propostas para trabalhos futuros).por
dc.language.isoengpor
dc.rightsrestrictedAccesspor
dc.subjectWrapperpor
dc.subjectScrapingpor
dc.subjectData extractionpor
dc.subjectExtração de dadospor
dc.titleStrategies for extracting web data: practical casepor
dc.typemasterThesiseng
dc.identifier.tid202169588por
thesis.degree.grantorUniversidade do Minhopor
sdum.degree.grade15 valorespor
sdum.uoeiEscola de Engenhariapor
dc.subject.fosEngenharia e Tecnologia::Outras Engenharias e Tecnologiaspor
Aparece nas coleções:BUM - Dissertações de Mestrado
DSI - Engenharia e Gestão de Sistemas de Informação

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
A72805_Dissertacao_MiEGSI_V2.6.pdf
Acesso restrito!
2,8 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID