HBase
 sql >> Base de Dados >  >> NoSQL >> HBase

Versão CDH 6.2:O que há de novo no HBase


A Cloudera lançou recentemente o CDH 6.2, que inclui dois novos recursos principais no Apache HBase:
  1. Replicação serial
  2. O cache de bucket agora é compatível com a memória Optane da Intel

Replicação serial


O HBase tem um mecanismo sofisticado de replicação assíncrona que suporta topologias complexas hoje que incluem topologias globais round-robin, bidirecionais, span-in e span-out.



Esse recurso de replicação, até o momento, fornece consistência eventual — o que significa que a ordem na qual as atualizações são replicadas não é necessariamente a mesma ordem na qual elas foram aplicadas ao banco de dados. Embora isso tenha funcionado para muitos clientes, a ordem das atualizações no endpoint de replicação era importante para muitos casos de uso.



O recurso de replicação serial fornece consistência de linha do tempo para replicação. Em outras palavras, a ordem das atualizações é preservada por meio da replicação para o cluster de destino. Há um pequeno custo para essa consistência e, em alguns casos, os usuários podem achar que a replicação é um pouco mais lenta do que a abordagem de replicação padrão.

A configuração desta opção é bastante simples (defina o sinalizador SERIAL como true) e pode ser aplicada no momento da configuração da replicação ou a qualquer momento em um nível de tabela, nível de namespace ou para um peer que replica todas as tabelas no HBase.

Cache de bucket do HBase


O cache de bucket do HBase é um cache de 2 camadas projetado para melhorar o desempenho pronto em vários casos de uso. A primeira camada está no heap Java e a segunda camada do cache pode residir em vários locais diferentes, incluindo:memória fora do heap, memória Intel Optane, SSDs ou HDDs.

A configuração recomendada para a segunda camada do cache do bucket para a maioria dos clientes está fora do heap. As implementações nesta configuração são capazes de escalar até tamanhos de memória muito maiores do que é possível com o cache integrado no heap, pois o mecanismo fora do heap evita a pressão de coleta de lixo da JVM. O tamanho de cache maior fornece desempenho de leitura HBase significativamente aprimorado.

A partir do CDH 6.2, o Cloudera agora inclui a capacidade de usar a memória Optane recém-lançada da Intel como um destino alternativo para o 2º nível do cache de bucket. Essa configuração de implantação permite que você tenha aproximadamente 3x o tamanho do cache para um custo constante (em comparação com o cache fora do heap na DRAM). Ele incorre em alguma latência adicional em comparação com a configuração off-heap tradicional, mas nossos testes indicam que, ao permitir que mais (se não todos) o conjunto de trabalho dos dados caiba no cache, a configuração resulta em uma melhoria de desempenho líquido quando os dados é armazenado em HDFS (usando HDDs).

Ao implantar na nuvem ou usar armazenamento de objetos no local, a melhoria de desempenho será ainda melhor, pois o armazenamento de objetos tende a ser muito caro para leituras aleatórias de pequenas quantidades de dados. A tabela abaixo dá uma ideia da compensação de custo, tamanho e latência necessária ao planejar como configurar a segunda camada do cache de bucket.
Armazenamento Custo em $ / GB Tamanho (custo constante) Latência
DRAM fora do heap 35 1,0 GB ~70 ns
Intel Optane¹ 13 2,7 GB 180-340 ns
SSD 0,15 233,3 GB 10-100 µs
HD² 0,027 1,3 TB 4-10 ms
Armazenamento de objetos³ 0,006 5,8 TB 10-100 ms

Leia este blog para saber mais sobre a colaboração da Intel e da Cloudera para aproveitar a memória persistente Optane DC para melhorar o desempenho.



Referências:
  1. Visão geral do desempenho da memória persistente Optane DC (https://www.youtube.com/watch?v=UTVt_AZmWjM) – minuto 6:53,
    https:// www.pcper.com/news/Storage/Intels-Optane-DC-Persistent-Memory-DIMMs-Push-Latency-Closer-DRAM,
    https://www.tomshardware.com/news/intel-optane- dimm-pricing-performance,39007.html
  2. https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/,
    https://www.westerndigital.com/ products/data-center-drives#hard-disk-hdd
  3. https://www.qualeed.com/en/qbackup/cloud-storage-comparison/, https://www.dellemc.com/en-us/collaterals/ unauth/analyst-reports/products/storage/esg-ecnomic-value-audi-dell-emc-elastic-cloud-storage.pdf