HBase
 sql >> Base de Dados >  >> NoSQL >> HBase

Próxima Parada – Construindo um Pipeline de Dados do Edge ao Insight


Esta é a parte 2 desta série de blogs. Você pode ler a parte 1, aqui: A transformação digital é uma jornada de dados da borda ao insight

Esta série de blogs segue os dados de fabricação, operações e vendas de um fabricante de veículos conectado à medida que os dados passam por estágios e transformações normalmente experimentados em uma grande empresa de manufatura na vanguarda da tecnologia atual. O primeiro blog apresentou uma empresa de fabricação de veículos conectados simulada, The Electric Car Company (ECC), para ilustrar o caminho dos dados de fabricação ao longo do ciclo de vida dos dados. Para conseguir isso, a ECC está aproveitando a Cloudera Data Platform (CDP) para prever eventos e ter uma visão de cima para baixo do processo de fabricação do carro em suas fábricas localizadas em todo o mundo.

Tendo concluído a etapa de coleta de dados no blog anterior, a próxima etapa do ECC no ciclo de vida dos dados é o enriquecimento de dados. O ECC enriquecerá os dados coletados e os disponibilizará para serem usados ​​na análise e criação de modelos posteriormente no ciclo de vida dos dados. Abaixo está todo o conjunto de etapas do ciclo de vida dos dados, e cada etapa do ciclo de vida será suportada por uma postagem de blog dedicada (consulte a Fig. 1):
  1. Coleta de dados – ingestão de dados e monitoramento na borda (seja a borda de sensores industriais ou pessoas em um showroom de veículos)
  2. Enriquecimento de dados – processamento, agregação e gerenciamento de pipeline de dados para preparar os dados para análise posterior
  3. Relatórios – fornecer insights de negócios (análise e previsão de vendas, orçamento como exemplos)
  4. Servindo – controlar e executar operações comerciais essenciais (operações de revendedores, monitoramento de produção) 
  5. Análise preditiva – análise preditiva baseada em IA e aprendizado de máquina (manutenção preditiva, otimização de inventário baseada em demanda como exemplos)
  6. Segurança e governança – um conjunto integrado de tecnologias de segurança, gerenciamento e governança em todo o ciclo de vida dos dados

Fig. 1 O ciclo de vida dos dados corporativos

Desafio de enriquecimento de dados


A ECC precisa de uma visão abrangente e compreensão robusta de todos os dados relacionados à fabricação, às operações do revendedor e ao envio de seus veículos. Eles também precisarão identificar rapidamente problemas com os dados, como sensores operacionais que geram dados que podem incluir falsos picos de temperatura causados ​​por paradas não planejadas da máquina ou partidas abruptas. Dados que não têm relação com o processo quando os trabalhadores de manutenção removem um sensor de um tanque de imersão de ácido durante inspeções de rotina, por exemplo, não devem ser levados em consideração na análise.

Além disso, a ECC enfrenta os seguintes desafios de dados que precisam ser abordados para mover com sucesso a fabricação de motores por sua cadeia de suprimentos. Esses desafios de dados incluem o seguinte:
  • Recuperando dados em vários formatos de diferentes fontes: Os pipelines de engenharia de dados exigem que os dados sejam trazidos de várias fontes e em muitos formatos diferentes. Quer os dados sejam provenientes de sensores instalados na linha de produção, dando suporte às operações de fabricação ou dados de ERP que controlam a cadeia de suprimentos, todos devem ser reunidos para análise posterior.
  • Filtrar dados redundantes ou irrelevantes: A remoção de dados duplicados ou inválidos e a garantia da precisão dos dados restantes é uma etapa fundamental na preparação dos dados para uso posterior em análises preditivas avançadas.
  • Capacidade de identificar processos ineficientes: O ECC requer a capacidade de ver quais processos de dados estão consumindo mais tempo e recursos, facilitando a segmentação de partes do pipeline com baixo desempenho para acelerar o processo geral.
  • Capacidade de monitorar todos os processos em um único painel: O ECC requer um sistema centralizado que permita monitorar todos os processos de dados em andamento, bem como um caminho para expandir sua infraestrutura atual, mantendo a transparência.

Conjuntos de dados de qualidade com curadoria são a espinha dorsal de qualquer iniciativa de análise avançada. Para conseguir isso, uma estrutura de engenharia de dados deve ser usada para permitir a construção de todas as tubulações e encanamentos necessários para mover, manipular e gerenciar dados das diferentes partes do veículo no ciclo de vida dos dados.

Construindo um pipeline usando a engenharia de dados Cloudera


Antes que os dados sejam enriquecidos e discutidos no primeiro blog, os fluxos de dados de TI e OT coletados da fábrica serão limpos, manipulados e modificados. ID de fábrica, ID de máquina, carimbo de data/hora, número de peça e número de série podem ser capturados a partir de um código QR impresso no motor elétrico. À medida que o motor é montado no veículo conectado, são capturados dados como tipo de modelo, VIN e custo base do veículo.

Após a venda do veículo, as informações de vendas, como nome do cliente, informações de contato, preço final de venda e localização do cliente, são registradas separadamente. Esses dados serão cruciais para entrar em contato com o cliente para qualquer possível recall ou manutenção preventiva direcionada. Os dados de geolocalização também são armazenados, o que ajudará a mapear as localizações dos clientes para latitudes e longitudes para entender melhor onde esses motores estão localizados após serem vendidos em um veículo.

A ECC usará a Cloudera Data Engineering (CDE) para lidar com os desafios de dados acima (veja a Fig. 2). A CDE disponibilizará os dados para o Cloudera Data Warehouse (CDW), onde serão disponibilizados para análises avançadas e relatórios de inteligência de negócios. As etapas do CDE são descritas abaixo.

Fig. 2 pipeline de enriquecimento de dados ECC

ETAPA 1:filtre e separe os dados


A primeira etapa no uso do CDE é criar um trabalho do PySpark que traga os dados dessas várias fontes "brutas" da etapa 1. Esta é uma oportunidade de filtrar quaisquer dados irrelevantes, como clientes com menos de 16 anos, por exemplo, desde que normalmente é a idade mínima para dirigir. Dados duplicados e outros dados irrelevantes também podem ser filtrados ou separados.

ETAPA 2:Combine os dados


Para combinar todos os dados, o CDE correlacionará os links comuns. Primeiro, os dados de vendas de carros serão vinculados ao cliente que comprou o carro para obter os metadados do cliente, como informações de contato, idade, salário etc. Os dados de geolocalização serão usados ​​para obter informações de localização mais precisas para o cliente , o que ajudará no mapeamento dos motores posteriormente. Os dados de instalação da peça serão usados ​​para identificar os números de série de cada motor que foi instalado no carro do cliente. Por fim, os dados de fábrica serão alinhados para corresponder ao número de série do motor que identificará qual fábrica, máquina e quando cada motor específico foi criado.

ETAPA 3:enviar dados para o Cloudera Data Warehouse


Depois que todos os dados forem reunidos em uma tabela enriquecida, um comando simples do Apache Spark gravará os dados em uma nova tabela no Cloudera Data Warehouse. Isso tornará os dados acessíveis a qualquer cientista de dados que queira acessá-los para fazer algumas análises adicionais.

ETAPA 4:gerar painéis e relatórios de visualização de dados


Com os dados todos em um só lugar, agora podem ser criados relatórios que permitirão que os funcionários tomem decisões mais bem informadas e abram recursos que não existiam. Os mapas de calor podem ser feitos para rastrear a localização do motor e correlacionar quaisquer problemas com possíveis localizações geográficas, como falhas devido a frio ou calor extremos. Esses dados também podem ser usados ​​para rastrear exatamente quais clientes podem ser afetados se houver um problema em uma determinada fábrica em um intervalo de tempo, facilitando o rastreamento de clientes que possam precisar de um recall ou alguma manutenção preventiva.

Conclusão


A Cloudera Data Engineering permite que a ECC construa um pipeline que possa correlacionar dados de fabricação e peças, tipo de uso do cliente, condições ambientais, informações de vendas e muito mais para melhorar a satisfação do cliente e a confiabilidade do veículo. A ECC atingiu seus objetivos e enfrentou seus desafios rastreando os dados relacionados à fabricação de seus motores e se beneficiando das seguintes formas:
  • O ECC acelerou o tempo de retorno ao orquestrar e automatizar pipelines de dados para fornecer conjuntos de dados selecionados e de qualidade de forma segura e transparente de várias fontes de dados.
  • O ECC conseguiu identificar dados relevantes e filtrar dados redundantes e duplicados.
  • A ECC conseguiu monitorar o pipeline de dados a partir de um único painel, enquanto estava em posição de ser alertado para detectar problemas antecipadamente por meio da solução visual de problemas para resolver rapidamente os problemas antes que os negócios fossem afetados.

Procure o próximo blog que se aprofundará em Relatórios que mostrará como os engenheiros de ECC executam consultas ad-hoc no CDW em relação a esses dados selecionados, além de unir os dados a outras fontes relevantes dentro de um data warehouse corporativo. O CDW facilita a reunião de todos os dados e fornece uma ferramenta de visualização de dados integrada para ir dos resultados consultados aos painéis. Fiquem ligados para o próximo!

Mais recursos de coleta de dados


Para ver tudo isso em ação, clique nos links relacionados abaixo para saber mais sobre o enriquecimento de dados:
  • Vídeo – Se você quiser ver e ouvir como isso foi construído, veja o vídeo no link.
  • Tutoriais – Se você quiser fazer isso no seu próprio ritmo, veja um passo a passo detalhado com capturas de tela e instruções linha por linha de como configurar e executar.
  • l>
  • Encontro – Se você quiser falar diretamente com especialistas da Cloudera, participe de um encontro virtual para ver uma apresentação ao vivo. Haverá tempo para perguntas e respostas diretas no final.
  • Usuários – Para ver mais conteúdo técnico específico para usuários, clique no link.