HBase
 sql >> Base de Dados >  >> NoSQL >> HBase

Construindo um processo escalável usando NiFi, Kafka e HBase no CDP


A Navistar é uma fabricante líder global de caminhões comerciais. Com uma frota de 350.000 veículos, manutenções não programadas e quebras de veículos criaram uma interrupção contínua em seus negócios. A Navistar exigia uma plataforma de diagnóstico que os ajudasse a prever quando um veículo precisava de manutenção para minimizar o tempo de inatividade. Essa plataforma precisava ser capaz de coletar, analisar e fornecer dados de mais de 70 feeds de dados telemáticos e de sensores de cada veículo em sua frota, incluindo dados de medição de desempenho do motor, temperatura do líquido de arrefecimento, velocidade do caminhão e desgaste dos freios. A Navistar recorreu à Cloudera para ajudar a construir uma plataforma de diagnóstico remoto habilitada para IoT, chamada OnCommand® Connection, para monitorar a saúde de seus veículos e aumentar o tempo de atividade dos veículos.

Este blog demonstra o uso de tecnologias semelhantes para resolver problemas de escopo muito menor, mas com paralelos aos enfrentados pela Navistar. Os dados foram extraídos de um Corvette altamente modificado e de alto desempenho (veja a Figura 1) para mostrar as etapas de carregamento de dados de uma fonte externa, formatação usando Apache NiFi, enviando-os para uma fonte de fluxo por meio do Apache Kafka e armazenando-os usando Apache HBase para análise adicional.

Fig 1. Corvette 2008 com motor 6.8L modificado

Para este exemplo específico, o Corvette em questão teve todos os componentes originais do motor de fábrica substituídos em favor de peças de maior desempenho. O motor foi demolido, os cilindros perfurados, o virabrequim e o eixo de comando substituídos, e novos pistões e bielas foram instalados, perseguindo a meta de ~600 cavalos de potência (veja a Fig 2). Para que esta nova configuração do motor funcione corretamente, o software do motor passou por uma revisão completa. Enquanto pressionar o acelerador se tornou significativamente mais dramático, uma consequência não intencional foi que os diagnósticos originais e os sistemas de erro do carro não eram mais precisos e, portanto, tiveram que ser desativados.

Fig 2. Reconstrução intermediária do motor com todos os novos componentes internos brilhantes

Para capturar e analisar os dados do sensor do Corvette, era necessário um caminho para que os dados fluíssem do carro para uma plataforma alternativa de análise e diagnóstico. O primeiro passo foi conectar um laptop à porta de diagnóstico do Corvette (veja a Fig 3) para importar os dados do sensor para um local de armazenamento baseado em nuvem. S3 foi usado para este projeto.

Fig 3. Laptop conectado à porta de diagnóstico via USB

O próximo passo foi usar a Cloudera Data Platform (CDP), a plataforma multifuncional e multianalítica da Cloudera, para acessar os serviços necessários para mover os dados para seu destino de armazenamento final para análise adicional. Usando o CDP Public Cloud, 3 hubs de dados foram configurados, cada um hospedando um conjunto de serviços de código aberto pré-empacotados (veja a Figura 4):
  • A primeira configuração foi o NiFi, um serviço criado para automatizar e gerenciar o fluxo de dados. O NiFi foi usado para importar, formatar e mover os dados do Corvette da fonte para o ponto de armazenamento final.
  • O próximo foi configurar o Kafka, um serviço de streaming em tempo real que permite que grandes volumes de dados estejam disponíveis como stream. O Kafka oferece a capacidade de processamento de fluxo de dados, ao mesmo tempo em que permite a outros usuários a opção de assinar os fluxos de dados. Neste exemplo, não há assinantes; no entanto, esse é um conceito importante que merece uma demonstração de como configurá-lo.
  • A configuração final foi o HBase, um banco de dados operacional altamente escalável e orientado a colunas que fornece acesso de leitura/gravação em tempo real. Depois que os dados fossem importados para o HBase, o Phoenix seria usado para consultar e recuperar dados.

Fig 4. Diagrama de fluxo de dados do Corvette da origem à consulta.

Construir a plataforma de diagnóstico usando o CDP para monitorar a saúde e o desempenho do Corvette foi um exercício bem-sucedido. O uso de NiFi e Kafka para formatar e transmitir os dados do sensor para o HBase agora permite que a engenharia e o processamento de dados avançados sejam executados, independentemente do tamanho do conjunto de dados.

Próximas etapas


Para ver tudo isso em ação, veja os links abaixo para algumas fontes diferentes que mostram o processo que foi criado.
  • Vídeo – Se você quiser ver e ouvir como isso foi construído, dê uma olhada em um vídeo rápido de 5 minutos mostrando a navegação em tempo real do CDP rodando NiFi, Kafka e HBase.
  • Tutoriais – Se você quiser fazer isso no seu próprio ritmo, veja um passo a passo detalhado com capturas de tela e instruções linha por linha de como configurá-lo.
  • MeetUps – Se você quiser conversar diretamente com especialistas da Cloudera e até mesmo com o dono deste Corvette, participe de um encontro virtual para ver sua apresentação ao vivo. Haverá tempo para perguntas e respostas diretas no final.
  • Página de usuários do CDP – Para saber mais sobre outros recursos do CDP criados para usuários, incluindo vídeos adicionais, tutoriais, blogs e eventos, clique no link.