Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/56371
Título: | Towards a transactional and analytical data management system for Big Data |
Outro(s) título(s): | Rumo a sistemas de gestão de dados transacionais e analíticos para Big Data |
Autor(es): | Coelho, Fábio André Castanheira Luís |
Orientador(es): | Oliveira, Rui Carlos Mendes de Pereira, José |
Data: | 26-Jul-2018 |
Resumo(s): | Hybrid database systems are on the verge of making Big Data analytics a reality.
This new class of database systems bypasses traditional methodologies considered
to update data on the analytical processing engine, moving such processing to
be computed directly on top of production data. Uncovering a unified database
engine that can achieve scalable analytics while simultaneously keep a steady operational
capacity, needs to overcome some of the current system hurdles, namely
the Extract, Transform and Load (ETL) process. By eschewing such process, hybrid
database engines are poised to reduce implementation, management and
storage costs and ultimately, enabling real-time Big Data analytics.
This dissertation addresses hybrid database systems, particularly tackling
some of the inherent functional and non-functional challenges associated with
the provision of real-time analytics. This was achieved by specializing in a particular
class of analytical functions designated as Window Functions. We considered
this class of analytical functions as a vehicle to understand and address
the low-latency requirements in hybrid systems, by considering a highly scalable
and cloud-based operational database as foundation. While we equipped it with
the ability to compute analytical functions, new algorithms were developed to account
for the highly distributed scenario. We devised a new metric and evaluation
system specifically targeted to assess hybrid database systems, showing that the
accomplished prototype is able to meet current requirements. Each one of these
achievements is presented as a novel contribution that addresses the proposed
challenges and unravels the path for a real-time analytics database. As bases de dados híbridas estão prestes a tornar o processamento de dados analíticos em Big Data numa realidade. Esta nova classe de bases de dados evita as metodologias tipicamente consideradas para a atualização de dados nos motores de processamento analítico, movendo-o para ser computado diretamente sob a base de dados operacional. Alcançar uma base de dados híbrida, munida de um motor unificado que possibilite processamento analítico escalável e seja simultaneamente capaz de manter um nível de processamento operacional estável, terá necessariamente que ultrapassar alguns dos obstáculos hoje encontrados, nomeadamente o processo de transformação de dados, do Inglês (ETL). Ao evitar este processo, as bases de dados híbridas terão um papel ativo, reduzindo custos de implementação, gestão e armazenamento, o que em última análise promoverá o processamento analítico de Big Data em tempo-real. Esta dissertação centra-se em bases de dados híbridas. Em particular, aborda alguns dos desafios funcionais e não-funcionais associados ao aprovisionamento de uma capacidade de processamento analítico em tempo-real. Nomeadamente, recorreu-se a uma classe de funções analíticas designadas por Window Functions (Funções em Janela), considerado-as como veículo à percepção e adoção de requisitos inerentes ao processamento híbrido. Considerou-se desta forma uma base de dados operacional altamente escalável, fundada em tecnologias orientadas ao processamento na nuvem. Partiu-se para a adequação do referido motor de base de dados, por forma a equipa-lo com a capacidade de interpretação e execução desta classe específica de funções analíticas, enquanto novos algoritmos foram desenhados por forma a considerar o ambiente altamente distribuído em que esta base de dados se insere. Desenvolveu-se uma nova métrica e plataforma de avaliação, inovadora na forma como as distintas distribuições de pedidos (transacionais e analíticas) são combinadas numa única, capaz de avaliar sistemas de bases de dados híbridas. Esta métrica serviu posteriormente para demonstrar que o protótipo desenvolvido está capacitado para responder aos desafios propostos. A realização de cada um dos objetivos propostos está apresentado como uma nova contribuição científica, contribuindo para desbravar o caminho com vista a um sistema integrado e capacitado para o processamento em tempo-real de Big Data. |
Tipo: | Tese de doutoramento |
Descrição: | Programa de Doutoramento em Informática (MAP-i) |
URI: | https://hdl.handle.net/1822/56371 |
Acesso: | Acesso aberto |
Aparece nas coleções: | DI/CCTC - Teses de Doutoramento (phd thesis) |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Fabio Andre Castanheira Luis Coelho.pdf | Tese de Doutoramento | 3,84 MB | Adobe PDF | Ver/Abrir |