Nota do editor, agosto de 2020:O CDP Data Center agora é chamado de CDP Private Cloud Base. Você pode saber mais sobre isso aqui.
Introdução
Esta postagem de blog é parte de uma série sobre o Banco de Dados Operacional da Cloudera (OpDB) no CDP. Cada postagem entra em mais detalhes sobre novos recursos e capacidades. Comece do início da série com o Banco de Dados Operacional em CDP.
Esta postagem de blog fornece uma visão geral das ferramentas e recursos de administração do banco de dados operacional (OpDB) na Cloudera Data Platform. Atualmente, está disponível em dois formatos:como uma oferta totalmente segura e semigerenciada no CDP Public Cloud – Data Hub e como uma oferta totalmente personalizável no CDP Data Center (semelhante ao que está disponível no CDH e HDP). Para obter mais informações sobre o Data Hub, consulte Cloudera Data Hub.
Fig 1:Cluster do OpDB Data Hub.
Você pode usar os links neste artigo para obter mais informações e instruções para usar esses recursos.
Criação e controle de banco de dados
Os namespaces do Apache HBase são grupos lógicos de tabelas semelhantes a um banco de dados em um sistema de banco de dados relacional tradicional. Os namespaces podem ser criados ou gerenciados por meio do Apache HBase Shell. Para obter mais informações sobre como usar o shell do Apache HBase, consulte Visão geral do shell do Apache HBase.
Com o gerenciador de replicação e o Ranger na imagem com o CDP, você só pode criar o namespace e gerenciá-lo no shell do HBase. Mas as permissões são via Ranger e a replicação é via Replication Manager.
Assim como em um banco de dados relacional, os namespaces contêm coleções de tabelas e permissões, configurações de replicação e isolamento de recursos. Você pode definir essas configurações no nível do namespace. No CDP, você pode criar um namespace e gerenciá-lo usando o shell HBase. Você pode usar o Apache Ranger para políticas de autorização e auditoria refinadas. Para obter mais informações sobre como configurar a segurança no CDP, consulte Segurança usando o Ranger.
O Replication Manager ajuda você a criar políticas de replicação do HBase. Você pode usar o Replication Manager para configurar a replicação entre CDH/HDP ou Apache HBase para CDP Data Center.
Fig 2:Criando a interface do usuário da política de replicação
Funcionalidade gráfica DDL e DCL
Existem várias ferramentas fornecidas para isso, incluindo plugins para:
- Cloudera Machine Learning (CML):o CML ajuda você a consultar dados usando o cliente HBase e o Phoenix, além de auxiliar na exploração, visualização, compartilhamento e colaboração de dados interativos. O OpDB pode ser usado para armazenar resultados de previsão de Sessão/Job/Modelo para consultas posteriores por vários usuários diferentes.
Fig 3:Interface do usuário do Cloudera Machine Learning
- Hue:Hue é um editor de consultas interativo baseado na Web que permite interagir com data warehouses. Você pode usar o aplicativo HBase Browser no Hue para criar e navegar nas tabelas do HBase.
Fig 4:A interface Hue suporta pesquisa, inserção, atualização, exclusão, DDL para HBase
Você pode usar a interface SQL usando Impala ou Hive para processamento de consultas no Hue.
Fig 5:Interface SQL usando Impala
Aqui está um tutorial para criar tabelas de exemplo no HBase usando Hue:https://gethue.com/hadoop-tutorial-how-to-create-example-tables-in-hbase/
- Eclipse:A formatação de código HBase para Eclipse é útil ao editar código HBase no Eclipse. Para obter mais informações, consulte Criando e desenvolvendo o Apache HBase.
Ferramentas como Zeppelin e Hue, juntamente com seus plugins, são fornecidas prontas para uso. Mas você também pode usar utilitários SQL de terceiros, como o Toad.
Ferramentas para atualização da versão do banco de dados operacional
Você pode usar o Cloudera Manager para automatizar o processo de atualização do banco de dados operacional em seu Cloudera Data Platform-Data Center (CDP-DC). As atualizações são fornecidas por meio de versões ou patches de manutenção. O Cloudera Manager instala as versões e/ou patches e gerencia a configuração, bem como o processo de reinicialização.
Se você estiver usando o CDP em uma nuvem pública como Amazon AWS, precisará criar um novo cluster de hub de dados para atualizar para as novas versões de vários componentes. Para obter mais informações sobre como criar um novo cluster de hub de dados de banco de dados operacional, consulte Introdução ao banco de dados operacional no CDP.
A oferta da Cloudera é baseada em cluster; atualizações e patches abrangem vários nós (servidores) e instalação, configuração e reinicialização são todos automatizados, incluindo reinicializações contínuas, quando aplicável.
Ferramentas de gerenciamento de patches em vários servidores
No CDP Data Center, o Cloudera Manager instala as versões e gerencia a configuração. O Cloudera Manager também faz o processo de reinicialização para cada um dos componentes afetados.
Aplicativo de correção sem tempo de inatividade
No CDP Data Center, o Cloudera Manager permite aplicar patches com tempo de inatividade zero.
Gerenciamento de mudanças em vários servidores
Você pode realizar o gerenciamento de alterações em esquemas de banco de dados em várias instâncias. Por exemplo, você pode fazer isso em seu ambiente de teste/desenvolvimento, preparação ou produção.
Você pode fazer o script das alterações necessárias usando o shell do HBase e, em seguida, propagá-lo para as outras instâncias.
Para obter mais informações sobre como usar o shell do HBase, consulte Shell do Apache HBase.
Particionamento de carga de trabalho
Você pode fazer o particionamento de carga de trabalho/aplicativo no OpDB usando várias ferramentas, dependendo da natureza do conjunto de cargas de trabalho e de suas necessidades de dados.
Se todos os aplicativos acessarem tabelas separadas, os grupos de servidores de região poderão ser usados para dedicar um conjunto de nós para um conjunto definido de tabelas ou namespaces, criando uma abordagem de particionamento de hardware. Para obter mais informações sobre grupos de servidores regionais, consulte Usando o agrupamento RegionServer.
Para aplicativos que usam o mesmo conjunto de tabelas, você pode usar a limitação de RPC, cotas de usuário e cotas de espaço para gerenciar o problema do vizinho barulhento. Consulte Gerenciamento de cotações do HBase para obter mais detalhes técnicos.
Você também pode combinar esses dois conjuntos de opções para ter um esquema de particionamento mais sofisticado. Use o Cloudera Manager para garantir que serviços específicos sejam particionados adequadamente entre os diferentes nós do cluster; por exemplo, você pode decidir quais nós devem ser usados para pesquisa SOLR, etc.
Particionamento de hardware
O Cloudera Manager e o YARN aproveitam os cgroups do Linux e o gerenciamento de memória ativa para particionamento estático e dinâmico de recursos de hardware.
Primeiro, todos os processos executados em todos os hosts podem ser particionados com cgroups, definidos pelo Cloudera Manager. Em segundo lugar, um assistente permite que os usuários definam o layout de partições estáticas para serviços definindo porcentagens, traduzindo automaticamente o isolamento de E/S e CPU baseado em cgroup e define limites de memória configurando os próprios serviços.
Por fim, o gerenciador de recursos nativo fornece um modelo de contêiner para cargas de trabalho que coloca cada unidade discreta de trabalho em um contêiner, usando cgroups e gerenciamento de memória ativa (set, monitor e kill) para isolamento de aplicativos.
Hipervisores de software
Os seguintes hipervisores de software são suportados
- O VMware é compatível com ambientes locais
- Ambientes virtuais do Azure da Microsoft (pilha do Azure)
- Amazon Web Services, a virtualização da Google Compute Platform e o Microsoft Azure são compatíveis com a nuvem.
Suporte a contêiner e orquestração
Cloudera fornece uma imagem do Docker que tem Apache HBase, Apache ZooKeeper e Cloudera Manager instalados nela. Você pode configurar o YARN para gerenciar seus contêineres do Docker e enviar trabalhos do Apache HBase para o YARN no mesmo contêiner ou enviar trabalhos para o YARN de outro contêiner.
Para obter mais informações, consulte Gerenciar contêineres do Docker no YARN.
Reversão de patches ou atualizações de versão
O Cloudera Manager fornece automação para alguns dos processos de reversão. Às vezes, as atualizações podem envolver alterações nos formatos de dados. Não há suporte para ferramentas para desfazer alterações de formato e você deve acionar uma restauração de dados de backups para que a reversão possa usar os dados antigos.
Migração entre plataformas de SO
As ferramentas padrão de backup/restauração/recuperação de dados da Cloudera estão disponíveis para suportar a migração do OpDB entre diferentes sistemas operacionais.
As estratégias de backup e recuperação de desastres do HBase garantem o backup de seus dados para protegê-lo contra a perda de dados. O instantâneo do HBase permite tirar um instantâneo de uma tabela sem muito impacto nos RegionServers. Também porque as operações de instantâneo, clone e restauração não envolvem a cópia de dados.
Para obter mais informações sobre backup e desastre do HBase, consulte Estratégias de backup e recuperação de desastre do HBase.
Ferramentas de administrador de banco de dados (DBA)
Existem muitas ferramentas incluídas para suportar o gerenciamento do banco de dados, incluindo:
- Gerenciador Cloudera
- Shell HBase
- Matiz
- HBCK2
- hbtop
- Patrulheiro
- Atlas
- FreeIPA
- navencrypt
- Ferramentas HDFS
- FIO
Essas ferramentas fornecem métricas e monitoramento, reinicialização do cluster, adição de ingestão, gerenciamento do ciclo de vida, atualizações, segurança, configuração do Kerberos e outros recursos.
Fig 6:Interface do Cloudera Manager HBase
Fig 7:Métricas e monitoramento no Cloudera Manager:
Fig 8:Reinicialização do cluster no Cloudera Manager
Além dessas ferramentas, você também pode usar as seguintes ferramentas de administração de terceiros e de código aberto:
- cavaleiro
- HADMIN
Abra interfaces documentadas para ferramentas de gerenciamento de terceiros
Também fornecemos APIs abertas para permitir que outras ferramentas sejam usadas para gerenciar o OpDB. Por exemplo, a interface JMX pode ser usada para integração com ferramentas de monitoramento de terceiros como o Grafana.
Conclusão
Nesta postagem do blog, vimos como você pode usar as várias ferramentas e recursos administrativos fornecidos pelo OpDB no CDP. No próximo artigo, abordaremos como você pode usar os recursos de gerenciamento do OpDB, confira aqui.