HBase
 sql >> Base de Dados >  >> NoSQL >> HBase

Usando a engenharia de dados da Cloudera para analisar os dados do programa de proteção de pagamento


O Paycheck Protection Program (PPP) é implementado pelo governo federal dos EUA para fornecer um incentivo direto para as empresas manterem seus funcionários na folha de pagamento, principalmente durante a pandemia de Covid-19. O PPP ajuda as empresas qualificadas a reter sua força de trabalho, além de ajudar a pagar as despesas comerciais relacionadas. Dados do site do Tesouro dos EUA mostram quais empresas receberam empréstimos de PPP e quantos empregos foram mantidos. O Tesouro dos EUA aprovou aproximadamente um milhão de empréstimos de PPP nos EUA.

A análise desses dados apresenta três desafios. Primeiro, o tamanho dos dados é significativo. A quantidade de tempo para extrair, selecionar, transformar, recuperar e relatar esses dados é demorada. Em segundo lugar, é provável que o conjunto de dados evolua, o que consumirá tempo e recursos de desenvolvimento adicionais. Finalmente, em um processo de vários estágios como esse, há uma chance de as coisas quebrarem. Ter a capacidade de determinar rapidamente erros ou gargalos ajudará a cumprir os SLAs de forma consistente.

Este blog ilustra como o Cloudera Data Engineering (CDE), usando o Apache Spark, pode ser usado para produzir relatórios com base nos dados do PPP enquanto aborda cada um dos desafios descritos acima.

Objetivo


Um cenário simulado para o Conselho de Orçamento Legislativo do Texas (LBB) é configurado abaixo para ajudar um engenheiro de dados a gerenciar e analisar os dados do PPP. O objetivo principal deste engenheiro de dados é fornecer ao LBB dois relatórios finais:
  • Relatório 1:detalhamento de todas as cidades do Texas que mantiveram empregos
  • Relatório 2:detalhamento do tipo de empresa que reteve vagas

Engenharia de Dados Cloudera (CDE)


É aqui que o Cloudera Data Engineering (CDE) executando o Apache Spark pode ajudar. O CDE é um dos serviços da Cloudera Data Platform (CDP) que permite que engenheiros de dados criem, gerenciem e programem trabalhos do Apache Spark, ao mesmo tempo em que fornece ferramentas úteis para monitorar o desempenho do trabalho, acessar arquivos de log e orquestrar fluxos de trabalho via Apache Airflow. O Apache Spark é uma estrutura de processamento de dados capaz de executar rapidamente o processamento de dados em larga escala.

O Tesouro dos EUA fornece dois conjuntos de dados diferentes, um para empréstimos aprovados superiores a US$ 150 mil e outro para empréstimos aprovados abaixo de US$ 150 mil. Para produzir os dois relatórios finais para o LBB, seguiram-se estes passos (ver Fig. 1).
  • A primeira etapa foi carregar os dois conjuntos de dados separados em um bucket do S3.
  • Um job do Spark foi criado para cada conjunto de dados para extrair e filtrar dados do bucket do S3.
  • Esses dois jobs do Spark transformaram e carregaram os dados limpos em um data warehouse do Hive para recuperação.
  • Um terceiro job do Spark foi criado para processar os dados do data warehouse do Hive para criar os dois relatórios.

Depois que as execuções de trabalho foram concluídas, o CDE forneceu uma representação gráfica dos vários estágios dentro de cada trabalho do Spark (consulte a Fig. 2). Isso permitiu que o engenheiro de dados visse facilmente quais partes do trabalho estavam tomando mais tempo, permitindo que eles refinassem e melhorassem facilmente seu código para melhor atender aos SLAs dos clientes.

Fig. 1:Jornada de dados para produzir os dois relatórios finais.



Fig. 2:Representação gráfica CDE de vários estágios do Spark.

Resultados


O objetivo principal de produzir os dois relatórios finais a partir do registro de um milhão de candidatos aprovados foi alcançado. O resumo gráfico do primeiro relatório (veja a Fig. 3) mostra uma amostra dos 10 principais do número de empregos retidos por cidade no Texas, e o segundo relatório (veja a Fig. 4) mostra uma amostra dos 5 principais do número de empregos retidos por tipo de empresa. Com esses relatórios, o Conselho de Orçamento Legislativo do Texas, por exemplo, pode inferir que as cidades com a menor quantidade de retenção de empregos per capita podem precisar de recursos para diminuir qualquer impacto econômico.

Fig. 3:As 10 principais cidades que mantiveram mais empregos, Estado do Texas, 2020



Fig. 4:Os 5 principais tipos de empresas que mais retiveram empregos, Estado do Texas, 2020

Próximas etapas


Para ver tudo isso em ação, clique nos links abaixo para algumas fontes diferentes que mostram o processo que foi criado.
  • Vídeo – Se você quiser ver e ouvir como isso foi construído, veja o vídeo no link.
  • Tutoriais – Se você quiser fazer isso no seu próprio ritmo, veja um passo a passo detalhado com capturas de tela e instruções linha por linha de como configurar e executar.
  • Encontro – Se você quiser conversar diretamente com especialistas da Cloudera, participe de um encontro virtual para ver uma apresentação ao vivo. Haverá tempo para perguntas e respostas diretas no final.
  • Página de usuários do CDP – Para saber mais sobre outros recursos do CDP criados para usuários, incluindo vídeos adicionais, tutoriais, blogs e eventos, clique no link.