HBase
 sql >> Base de Dados >  >> NoSQL >> HBase

Feliz aniversário Apache HBase! 10 anos de resiliência, estabilidade e desempenho


O Apache HBase tornou-se um projeto de alto nível com o Apache há 10 anos e Cloudera começou a contribuir para ele ao mesmo tempo (2010). Ao longo desse tempo, tornou-se uma das maiores e mais populares ferramentas de código aberto em big data e um dos bancos de dados NoSQL mais populares.

A Apache Software Foundation anuncia o 10º aniversário do Apache HBase


O HBase oferece suporte a banco de dados NoSQL de valor-chave e coluna ampla e é usado por empresas em toda parte. A Cloudera tem mais de 500 clientes em produção usando-a para casos de uso que vão desde aplicativos transacionais de missão crítica, data warehousing, aprendizado de máquina e engenharia de dados. Nossos clientes escolhem o HBase por causa de sua resiliência (com alguns clientes capazes de obter 100% de tempo de atividade do aplicativo ao longo de muitos anos), estabilidade, desempenho e baixo custo operacional. Os clientes Cloudera o implantam de forma independente, juntamente com o Phoenix, que é um banco de dados baseado em SQL construído no HBase e, às vezes, com Apache Impala e/ou Apache Hive, que permite executar consultas OLAP baseadas em SQL no HBase.

Sou Gerente de Produto da oferta de Banco de Dados Operacional da Cloudera desde 2018 e tive a oportunidade de conhecer muitos de nossos clientes. Estou continuamente impressionado com a ampla variedade de maneiras pelas quais os clientes usam o HBase. A amplitude dos casos de uso é tão grande e variada que desafia a segmentação. Depois de muita análise, acabei com uma abordagem simples para classificar casos de uso — clientes que a usam para dar suporte a aplicativos de missão crítica e aqueles que não usam. Os aplicativos de missão crítica tendem a ser de natureza transacional e ajudam nossos clientes a aumentar sua receita de primeira linha e/ou aumentar a eficiência operacional. Para eles, se o HBase cair, o top-line e/ou bottom-line é impactado e, na pior das hipóteses, as pessoas podem morrer.

Exemplos de casos de uso de missão crítica:

  • Um fornecedor de software de assistência médica usa o HBase para alimentar centenas de aplicativos. Se esses aplicativos falharem, por qualquer motivo, as pessoas podem morrer e os custos com saúde aumentam. Este cliente implantou o HBase em mais de 7.000 nós com mais de 70 PB de dados.
  • Um fabricante de telefones celulares usa o HBase para ativar um assistente de voz e muitos outros casos de uso em mais de 6.000 nós
  • Uma casa de mídia financeira usa o HBase para alimentar partes da plataforma e permite que traders e outros entendam o contexto relevante em torno dos movimentos dos preços das ações, tendências etc. em mais de 1.200 nós
  • Uma plataforma de marketing por e-mail líder de mercado executa o HBase em aproximadamente 1.000 nós
  • Um provedor de seguros usa o HBase em aproximadamente 1.000 nós para armazenar todas as informações de sinistros e as usa para gerenciar esses sinistros ao longo de seu ciclo de vida
  • Um provedor de serviços de biblioteca usa o HBase em mais de 400 nós para oferecer suporte a empréstimos entre bibliotecas em todo o mundo 
  • Uma empresa global de distribuição de energia usa o HBase em mais de 400 nós para ingerir leituras de mais de 7 milhões de medidores inteligentes e realizar a implantação automatizada de equipes de reparo para a rede de distribuição elétrica, aplicativos de faturamento de energia e promova o treinamento contínuo de modelos de aprendizado de máquina 
  • A maior empresa de telecomunicações da Indonésia, a Telkomsel, com mais de 170 milhões de clientes, migrou todo o seu aplicativo de CRM do banco de dados MPP legado para HBase e Impala e conseguiu atingir um tempo de resposta de menos de um segundo em todas as consultas de CRM para registros de chamadas de usuários individuais, perfis, recargas, uso de dados, etc. O benefício de ter o Impala para consultar o HBase foi garantir a interface compatível com ANSI SQL acessível via JDBC para minimizar as alterações de CRM.

Exemplos de casos de uso não essenciais à missão:

  • Um fabricante de produtos de cuidados pessoais usa o HBase para gerenciar toda a marca de seus produtos e materiais de marketing 
  • Um fabricante de semicondutores usa o HBase para armazenar arquivos de registro de seus produtos e extraí-los para outros sistemas para análise 
  • Um provedor de telecomunicações usa o HBase para armazenar suas tabelas de dimensões para o Hive

O que diferencia o HBase de outras ofertas NoSQL é sua integração com o Open Source, Big Data Ecosystem, que permite que os clientes tenham uma experiência de ponta a ponta. Eles podem usá-lo para aplicativos que precisam de dados da borda ou aplicativos que precisam fornecer modelos de IA/ML em escala ou qualquer combinação deles.

Um dos tíquetes de suporte mais interessantes que vi na Cloudera foi quando um cliente do HBase preencheu um tíquete de alta prioridade indicando que sua implantação de missão crítica estava inativa. Eles não interagiam conosco há mais de um ano e eu nem sabia que eles eram um cliente importante. Foi só, neste caso, que eu soube que eles implantaram 1.000 nós para alimentar uma plataforma de marketing omnicanal no HBase. A raiz do problema foi que eles fizeram algumas alterações problemáticas em suas configurações 9 meses antes do incidente. Quando eles finalmente foram reiniciados, as configurações problemáticas entraram em vigor, fazendo com que eles pedissem ajuda à Cloudera!

A Cloudera se preocupa profundamente com o HBase e tem 15 committers e membros do PMC no projeto. Também estamos investindo para disponibilizá-lo em nuvem pública, com formatos PaaS e dbPaaS.

Experiências HBase ao longo dos anos


Dado nosso compromisso e história de longa data com este projeto, queríamos compartilhar algumas experiências e histórias associadas a este projeto de toda a equipe Cloudera.

“Anos atrás, eu estava participando de uma conferência técnica focada no Apache Hadoop. Tarde da noite, eu estava voltando para o meu quarto e por acaso vi um grupo de pessoas que reconheci como clientes de longa data amontoados em torno de uma mesa. Agora, este é um grupo muito competente de indivíduos com quem eu já trabalhei por muitos anos. Eu me aproximei, com a intenção de dizer olá brevemente e seguir meu caminho depois de um longo dia. Acontece que eles estavam tendo uma interrupção de produção em um de seus sistemas e estavam no meio de tentar resolvê-lo. Sentei-me, peguei meu laptop e saí com eles pelas próximas horas enquanto analisávamos o problema e abordávamos os problemas que encontramos. O suporte a aplicativos de missão crítica às vezes requer heroísmo, mas às vezes você também encontra alguns pássaros da mesma plumagem ao longo do caminho.”

- Engenheiro senior

“Na natureza de muitos negócios, é absolutamente vital poder escalar e ainda atender aos requisitos de baixa latência de seu sistema de missão crítica. Se você olhar para trás através dos arquivos, nossos clientes tiveram tempos difíceis para viver de acordo com padrões tão difíceis. O HBase tem os elementos que tornaram fácil atender a essas expectativas, especialmente, minimizando o tempo para acionar a próxima melhor ação.”

— Arquiteto Principal de Soluções

“Há três anos eu era um novo gerente de engenharia na Cloudera. Eu conhecia a atividade de código aberto da empresa e sou usuário do GNU Linux desde o ensino médio, mas usar código aberto e fazer parte dele são completamente diferentes.

Como o cara novo na empresa, eu tinha que entender o que a equipe faz, então recebi alguns tickets de suporte e comecei a trabalhar neles. Eu só sabia duas coisas, fui desenvolvedor Java por muitos anos, então devo ser capaz de fazer isso e a Hortonworks é nosso concorrente mais desafiador, o que significa que pode ser interessante trabalhar com eles.

E então aconteceu, com meu primeiro tíquete do Apache HBase, encontrei Josh Elser – líder da equipe HBase da Hortonworks – que me mostrou que implementar uma tarefa newby pode ser mais difícil do que o esperado (com as barras de qualidade que a equipe HBase tem) e que seu concorrente pode ser seu melhor parceiro na comunidade de código aberto. No final, ele cometeu minhas alterações.

Nos últimos três anos, muitas coisas mudaram. Cloudera e Hortonworks fundidos, agora trabalhamos na mesma empresa, mas Apache e HBase são os mesmos. Eu tenho tempo limitado para trabalhar no código, mas vejo seu poder, vejo como ele é usado para serviços que eu não sabia que existiam e vejo como isso faz com que pessoas de todo o mundo trabalhem juntas. Ele conecta pessoas por meio de empresas, continentes, culturas.”

- Gerente de engenharia

“HBase e Phoenix foram fáceis de aprender. O Data Hub facilita o início e agora estamos ansiosos para que o Cloudera Operational Database leve o HBase para a próxima década.”

— Gerente Técnico de Sucesso do Cliente

“Nos últimos 9 anos, estive na linha de frente do desenvolvimento do HBase e vi a evolução de como nossos clientes usam o HBase de um POC para plataformas de missão crítica de grande escala. O momento mais marcante dessa época foi antes da fusão da Cloudera e da Hortonworks, quando as equipes de ambas as empresas trabalharam juntas para melhorar a funcionalidade de um recurso crítico do produto. Eventualmente, o trabalho foi apresentado no HBaseCon e recebeu grande reconhecimento por dois dos maiores usuários do HBase. Esse recurso alimenta uma funcionalidade crítica usada por mais de 2 bilhões de dispositivos móveis em todo o mundo”.

- Engenheiro senior

“Outro grande momento dos últimos 10 anos do HBase, foi na HBaseCon 2015, quando Carter Page do Google deu reconhecimento público de como o HBase evoluiu para um projeto muito sólido”

- Engenheiro senior

“Tive o prazer de participar de quase todos os HBaseCons (e falar em alguns deles). Estas são três das minhas memórias favoritas do HBaseCon:(1) A diversidade do HBase:o anúncio do HBase 2.0 destacou não apenas o número de JIRAs enviados, mas também o número de committers do HBase e membros do PMC de fora dos EUA, além de ter uma mulher liderando o HBase PMC , (2) o impulso do HBase:o anúncio do Facebook de que eles estavam deixando seu fork personalizado para ir 100% upstream no Apache HBase e (3) os degraus do HBase:em um HBaseCon, um desenvolvedor da Bloomberg deu uma palestra sobre réplicas de leitura e depois dois HBaseCons , um desenvolvedor da Apple deu uma palestra HBaseCon sobre o uso de réplicas de leitura na produção.”

– Engenheiro de Sistemas Sênior

Na Cloudera, continuamos a ver um futuro brilhante para este projeto e esperamos que ele evolua para impulsionar os aplicativos de última geração que estão sendo criados na nuvem em formatos semelhantes a PaaS e dbPaaS, bem como em datacenter com nuvem privada.

Para uma prévia do que está por vir, confira Modelo de banco de dados operacional do CDP Public Cloud .