A Cloudera lançou recentemente o CDH 6.2, que inclui dois novos recursos principais no Apache HBase:
- Replicação serial
- O cache de bucket agora é compatível com a memória Optane da Intel
Replicação serial
O HBase tem um mecanismo sofisticado de replicação assíncrona que suporta topologias complexas hoje que incluem topologias globais round-robin, bidirecionais, span-in e span-out.
Esse recurso de replicação, até o momento, fornece consistência eventual — o que significa que a ordem na qual as atualizações são replicadas não é necessariamente a mesma ordem na qual elas foram aplicadas ao banco de dados. Embora isso tenha funcionado para muitos clientes, a ordem das atualizações no endpoint de replicação era importante para muitos casos de uso.
O recurso de replicação serial fornece consistência de linha do tempo para replicação. Em outras palavras, a ordem das atualizações é preservada por meio da replicação para o cluster de destino. Há um pequeno custo para essa consistência e, em alguns casos, os usuários podem achar que a replicação é um pouco mais lenta do que a abordagem de replicação padrão.
A configuração desta opção é bastante simples (defina o sinalizador SERIAL como true) e pode ser aplicada no momento da configuração da replicação ou a qualquer momento em um nível de tabela, nível de namespace ou para um peer que replica todas as tabelas no HBase.
Cache de bucket do HBase
O cache de bucket do HBase é um cache de 2 camadas projetado para melhorar o desempenho pronto em vários casos de uso. A primeira camada está no heap Java e a segunda camada do cache pode residir em vários locais diferentes, incluindo:memória fora do heap, memória Intel Optane, SSDs ou HDDs.
A configuração recomendada para a segunda camada do cache do bucket para a maioria dos clientes está fora do heap. As implementações nesta configuração são capazes de escalar até tamanhos de memória muito maiores do que é possível com o cache integrado no heap, pois o mecanismo fora do heap evita a pressão de coleta de lixo da JVM. O tamanho de cache maior fornece desempenho de leitura HBase significativamente aprimorado.
A partir do CDH 6.2, o Cloudera agora inclui a capacidade de usar a memória Optane recém-lançada da Intel como um destino alternativo para o 2º nível do cache de bucket. Essa configuração de implantação permite que você tenha aproximadamente 3x o tamanho do cache para um custo constante (em comparação com o cache fora do heap na DRAM). Ele incorre em alguma latência adicional em comparação com a configuração off-heap tradicional, mas nossos testes indicam que, ao permitir que mais (se não todos) o conjunto de trabalho dos dados caiba no cache, a configuração resulta em uma melhoria de desempenho líquido quando os dados é armazenado em HDFS (usando HDDs).
Ao implantar na nuvem ou usar armazenamento de objetos no local, a melhoria de desempenho será ainda melhor, pois o armazenamento de objetos tende a ser muito caro para leituras aleatórias de pequenas quantidades de dados. A tabela abaixo dá uma ideia da compensação de custo, tamanho e latência necessária ao planejar como configurar a segunda camada do cache de bucket.
Armazenamento | Custo em $ / GB | Tamanho (custo constante) | Latência |
DRAM fora do heap | 35 | 1,0 GB | ~70 ns |
Intel Optane¹ | 13 | 2,7 GB | 180-340 ns |
SSD | 0,15 | 233,3 GB | 10-100 µs |
HD² | 0,027 | 1,3 TB | 4-10 ms |
Armazenamento de objetos³ | 0,006 | 5,8 TB | 10-100 ms |
Leia este blog para saber mais sobre a colaboração da Intel e da Cloudera para aproveitar a memória persistente Optane DC para melhorar o desempenho.
Referências:
- Visão geral do desempenho da memória persistente Optane DC (https://www.youtube.com/watch?v=UTVt_AZmWjM) – minuto 6:53,
https:// www.pcper.com/news/Storage/Intels-Optane-DC-Persistent-Memory-DIMMs-Push-Latency-Closer-DRAM,
https://www.tomshardware.com/news/intel-optane- dimm-pricing-performance,39007.html - https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/,
https://www.westerndigital.com/ products/data-center-drives#hard-disk-hdd - https://www.qualeed.com/en/qbackup/cloud-storage-comparison/, https://www.dellemc.com/en-us/collaterals/ unauth/analyst-reports/products/storage/esg-ecnomic-value-audi-dell-emc-elastic-cloud-storage.pdf