A Cloudera Data Platform (CDP) é a mais recente oferta de Big Data da Cloudera. Inclui Apache HBase e Phoenix como parte da plataforma. Esses dois componentes são fornecidos em 3 fatores de forma:
- Para implantações no local, eles estão disponíveis de maneira semelhante ao CDH e HDP (dentro da oferta CDP Private Cloud)
- Para clientes que desejam gerenciar o banco de dados por conta própria na AWS e no Azure, ele está disponível como parte da oferta CDP Public Cloud DataHub (com o modelo Operational Database ou em Custom implantações do DataHub)
- Ele estará disponível como parte do Cloudera Operational Database (COD) em breve, que é uma oferta totalmente gerenciada, eliminando a sobrecarga de gerenciamento de operar uma implantação do HBase
Os clientes do Apache HBase da Cloudera normalmente executam aplicativos de missão crítica que não podem arcar com nenhum tempo de inatividade. Eles precisam de uma maneira de migrar para uma nova implantação sem uma interrupção de produção ou, no mínimo, uma pequena interrupção. Com essas considerações de atualização em mente, especialmente com o fim próximo do suporte para CDH5 e HDP 2, desenvolvemos o Plugin de replicação Cloudera OpDB .
Muitas empresas também implantam clusters HBase baseados em CDH 6, HDP 3 e EMR, mas procuram reduzir ou eliminar a sobrecarga operacional de manter clusters HBase. Para eles, o Plugin de replicação Cloudera OpDB pode permitir que eles migrem para DataHub ou COD sem incorrer em tempo de inatividade ou interrupção de produção.
O Replication Plugin oferece suporte à replicação dos seguintes clusters HBase de origem:
- CDH 5,14
- CDH 6,3
- HDP 2.6.5
- HDP 3.1.5
- EMR 5,28
Replicação HBase
O HBase fornece uma capacidade de replicação madura e rica em recursos há quase uma década. A replicação é um dos recursos mais populares do HBase, pois fornece uma solução automática de recuperação de desastres (DR), suporta migração de dados, suporta particionamento de carga de trabalho e/ou suporta um índice secundário baseado em pesquisa por meio da integração com o Apache Solr. Uma discussão detalhada de como a Replicação do HBase funciona e como configurar a replicação é explicada no Guia de referência do HBase e foi discutida em muitos artigos do Cloudera Blog. Hoje, ele suporta muitas topologias, incluindo:
- Fan-in
- Fan-out
- Ciclico
- Bidirecional
A replicação do HBase pode ser configurada no namespace (ou seja, banco de dados) ou no nível da tabela. Embora quase em tempo real por natureza, ele pode ser configurado para ser eventualmente consistente ou consistente com a linha do tempo.
O plug-in de replicação Cloudera OpDB oferece suporte apenas a um cluster de destino fornecido por um CDP DataHub Cluster ou por um banco de dados COD, implantado na AWS ou no Azure.
Estabelecer confiança
A replicação do HBase até o momento exigia que todos os clusters participantes tivessem as mesmas definições de segurança, ou seja, todos os clusters não devem ter nenhuma segurança habilitada (configuração de autenticação definida como simples) , ou todos os clusters devem ter a segurança habilitada com kerberos (configuração de autenticação definida como kerberos) .
Quando o Kerberos é usado, todos os principais kerberos dos clusters devem pertencer ao mesmo realm, ou se em reinos diferentes, eles devem ser confiáveis entre si (comumente conhecido como cross-realm autenticação).
Configurando a confiança entre domínios com Kerberos é problemático na maioria das organizações, pois as políticas de segurança corporativa normalmente o proíbem. Para resolver esse problema, o plug-in Cloudera OpDB Replication estende a replicação do HBase para usar um método de autenticação alternativo, permitindo a replicação entre domínios de segurança. O Plugin de Replicação permite a replicação
- Em vários domínios Kerberos sem exigir confiança entre reinos
- Replicação de clusters seguros para inseguros e
- Replicação de clusters inseguros para clusters seguros.
Para estabelecer a confiança de clusters CDP para clusters que não possuem configurações de segurança ou são protegidos usando Kerberos, o Replication Plugin implementa um novo mecanismo de autenticação usando um segredo compartilhado que é criado usando uma ferramenta fornecida e armazenado nos clusters de origem e destino.
Conclusão
A replicação é uma ferramenta valiosa para implementar soluções de migração de DR e data center(DC) para HBase. Ele tem algumas ressalvas, como mostrado aqui ao lidar com as configurações de segurança dos clusters. Com o fim iminente da vida útil do CDH 5 e do HDP 2, a capacidade de migrar dados dessas plataformas legadas para o CDP é imprescindível.
Para clientes com implementações de HBase baseadas em HDP3, CDH6 e EMR 5.28, esse plug-in permite que esses clientes adotem perfeitamente uma solução HBase totalmente gerenciada e reduzam drasticamente a sobrecarga operacional do gerenciamento do HBase.
Entre em contato com sua equipe de contas Cloudera se estiver interessado em implantar o plug-in de replicação Cloudera OpDB em seu ambiente.