Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/81083
Título: | HIODS: hybrid inline and offline deduplication system |
Autor(es): | Pedrosa, Carlos Pinto |
Orientador(es): | Paulo, João Tiago Medeiros Pereira, José |
Palavras-chave: | Deduplication Storage Inline Offline Hybrid Deduplicação Armazenamento Híbrido |
Data: | 22-Fev-2021 |
Resumo(s): | Deduplication is a technique that allows finding and removing duplicate data at storage
systems. With the current exponential growth of digital information, this mechanism is
becoming more and more desirable for reducing the infrastructural costs of persisting such
data. Therefore, deduplication is now being widely applied to several storage appliances
serving applications with different requirements (e.g., archival, backup, primary storage).
However, deduplication requires additional processing logic for each storage request in
order to detect and eliminate duplicate content. Traditionally, this processing is done in
the I/O critical path (inline), thus introducing a performance penalty on the throughput
and latency of requests being served by the storage appliance. An alternative solution is to
do this process as a background task, thus outside of the I/O critical path (offline), at the
cost of requiring additional storage space as duplicate content is not found and eliminated
immediately. However, the choice of what type of strategy to use is typically done manually
and does not take into consideration changes in the applications' workloads.
This dissertation proposes HIODS, a hybrid deduplication solution capable of automati cally changing between inline and offline deduplication according to the requirements (e.g.,
desired storage I/O throughput goal) of applications and their dynamic workloads. The
goal is to choose the best strategy that fulfills the targeted I/O performance objectives while
optimizing deduplication space savings.
Finally, a prototype of HIODS is implemented and evaluated extensively with different
storage workloads. Results show that HIODS is able to change its deduplication mode dy namically, according to the storage workload being served, while balancing I/O performance
and space savings requirements efficiently. A deduplicação é uma técnica que permite encontrar e remover dados duplicados guardados nos sistemas de armazenamento. Com o crescimento exponencial da informação digital que vivemos atualmente, este mecanismo está a tornar-se cada vez mais popular para reduzir os custos das infraestruturas onde esses dados se encontram alojados. De facto, a deduplicação é, hoje em dia, usada numa grande variedade de serviços de armazenamento que servem diferentes aplicações com requisitos particulares (ex.: arquivo, backup, armazenamento primário). No entanto, a deduplicação adiciona uma camada de processamento extra a cada pedido de armazenamento, de modo a conseguir detetar e eliminar o conteúdo redundante. Tradicionalmente, este processo é realizado durante o caminho crítico do I/O (inline), causando perdas de desempenho e aumentos na latência dos pedidos processados. Uma alternativa é alterar o processamento para segundo plano, aliviando assim os custos no caminho crítico do I/O (offline). Esta solução requer espaço de armazenamento adicional, visto que os duplicados não são encontrados nem eliminados imediatamente. No entanto, a estratégia a seguir é escolhida de forma manual, não tendo em consideração qualquer possível mudança na carga de trabalho das aplicações. Esta dissertação propõe assim o HIODS, um sistema de deduplicação híbrido capaz de alterar entre o modo inline e offline de forma automática considerando os requisitos (ex.: débito do sistema de armazenamento desejado) das aplicações e das suas cargas de trabalho dinâmicas. Por fim, um protótipo do HIODS é implementado e avaliado exaustivamente. Os resultados mostram que o HIODS é capaz de alterar o modo de deduplicação de forma dinâmica e de acordo com a carga de trabalho, considerando os requisitos de desempenho e a eliminação eficiente dos dados duplicados. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado integrado em Engenharia Informática |
URI: | https://hdl.handle.net/1822/81083 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Carlos Pinto Pedrosa.pdf | 1,42 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons