Acessibilidade do banco de dados operacional

Esta postagem de blog faz parte de uma série sobre o Banco de Dados Operacional da Cloudera (OpDB) no CDP. Cada postagem entra em mais detalhes sobre novos recursos e capacidades. Comece do início da série com o Banco de Dados Operacional em CDP.

O OpDB da Cloudera fornece um rico conjunto de recursos para armazenar e acessar dados. Nesta postagem do blog, veremos os recursos de acessibilidade do OpDB e como você pode usar esses recursos para acessar seus dados.

Distribuição e fragmentação

O banco de dados operacional da Cloudera (OpDB) é um sistema de gerenciamento de banco de dados (DBMS) escalável projetado para escalar linearmente para petabytes de dados. Como todos os DBMSs, a expansão é implementada por meio de fragmentação. Duas políticas de fragmentação diferentes são compatíveis:

Fragmentação automática
Fragmentação predefinida

Independentemente da abordagem, existem APIs para habilitar a fragmentação com base em hash, intervalo de valores e a combinação de ambos.

Fragmentação automática

Quando a fragmentação automática está habilitada, as tabelas são distribuídas dinamicamente pelo cluster e quando o tamanho de um fragmento excede o limite configurável, ele é dividido e movido automaticamente entre os servidores em um cluster.

Um segmento de tabela é dividido em dois na chave do meio, criando duas metades aproximadamente iguais e essas duas metades podem ser atendidas por servidores diferentes.

O sharding automatizado é aplicado independentemente da rede usada com o OpDB (WAN ou local). Os clusters podem ser configurados para abranger uma WAN, caso em que a fragmentação e a movimentação de dados ocorreriam na WAN sem perda de dados zero.

O sistema pode ser configurado para saber quais nós estão em quais datacenters, o que fornece resiliência adicional para shards, pois as cópias dos shards podem ser distribuídas em vários datacenters.

Fragmentação predefinida

Os fragmentos podem ser limitados a subconjuntos específicos de nós em um cluster com base na política, geralmente de maneira específica do locatário. Isso permite a implementação de políticas com base geográfica. Em seguida, as tabelas podem ser replicadas entre clusters e definidas por políticas para garantir que a replicação de tabelas e os shards associados sejam limitados às geografias desejadas.

O OpDB da Cloudera fornece suporte nativo para soberania de dados. Se um cluster abrange vários países, os grupos de servidores de região podem ser usados para ancorar dados em países específicos junto com a configuração de isolamento do HDFS Rack.

Consultas

A Cloudera fornece três mecanismos de consulta otimizados para diferentes tipos de casos de uso, operacionais e analíticos, e interfaces NoSQL para permitir desempenho otimizado em uma ampla variedade de cargas de trabalho operacionais e de data warehouse. Isso permite a execução de consultas e junções de dados em vários fragmentos.

O OpDB da Cloudera fornece um mecanismo SQL OLTP nativo que suporta a consulta de vários modelos de dados e objetos, incluindo consulta e junção entre eles. Dois de nossos mecanismos de consulta OLAP podem ser usados para mapear tabelas externas que residem em nosso OpDB (ou em outros locais) e podem consultar ou juntar-se a eles para consultas analíticas mais complexas típicas de data warehousing

Ferramentas de integração de dados

Cloudera fornece várias ferramentas para permitir a integração com data warehousing e processamento de consultas federadas.

Por exemplo:

A exportação em massa para um data warehouse é fornecida pelo Flink, Spark, Hive e MapReduce
A exportação de streaming para um data warehouse é fornecida pela Nifi
A consulta de dados in-situ em nosso OpDB é fornecida por Phoenix, Impala e Hive
O processamento de consultas federadas em nosso OpDB, solução de armazenamento de dados e soluções de armazenamento de dados de terceiros é fornecido pelo Hive

Suporte de dados externos

O OpDB da Cloudera inclui muitas ferramentas do Hadoop e se integra à maior parte do ecossistema do Hadoop.

Nosso OpDB fornece interfaces NoSQL e SQL. Não há restrições nesta interface e é muito bem suportada na comunidade Hadoop.

OpDB móvel

O MiNiFi pode ser usado em dispositivos portáteis na borda e fornecer conectividade de dados com o OpDB.

O editor de consultas HUE pode ser executado em um dispositivo móvel ou portátil.

Conectividade baseada em padrão

Cloudera fornece drivers JDBC e ODBC fornecidos por meio de nossos mecanismos SQL, além de acesso direto à API para nossos repositórios de dados e ferramentas.

Nesta postagem do blog, analisamos alguns dos recursos de acessibilidade do OpDB, como consulta de dados, integração de dados e conectividade. No próximo artigo, abordaremos como você pode usar os recursos de administração do OpDB, encontre-o aqui.

Para obter mais informações, acesse:Introdução ao Banco de Dados Operacional.