HBase
 sql >> Base de Dados >  >> NoSQL >> HBase

Data Warehousing de última geração no Santander UK


Dados oportunos são cruciais para as empresas na era do Big Data:esta postagem no blog descreve como o Santander UK utiliza as mais recentes tecnologias Cloudera e capacidade superior de desenvolvimento de software para criar a próxima geração de armazenamento de dados e análise de streaming para apoiar a inteligência que pode melhorar o relacionamento com os clientes e siga o mantra de 'queremos ajudar as pessoas a crescer e prosperar. '

A jornada de big data do Santander UK começou há cerca de quatro anos. Eles foram os primeiros a adotar novas tecnologias de streaming de dados, como o Apache Kafka, e tinham ambições de revolucionar a experiência do cliente com o uso de dados em tempo real e análises no aplicativo para usuários móveis.



Desde então, o Santander UK aprimorou a presença e a capacidade de inovar com tecnologia de big data e evoluiu rapidamente. A necessidade de análises de streaming em larga escala aumentou e se tornou uma realidade. Hoje, no Santander UK, a plataforma de Big Data, Machine Learning e Analytics da Cloudera é complementada pela entrega de eventos Platform-as-a-Service (PaaS) integrado de alta qualidade e escalável por meio do Apache Kafka.

Outro componente de tecnologia que é central para o Data Warehouse de próxima geração do Santander UK é o uso do Apache Kudu para permitir análises rápidas em dados rápidos. Quando combinado com aspectos da metodologia de design do Data Vault 2.0, ele facilita a ingestão rápida de centenas de fluxos de dados do Apache Kafka; tanto descarregando a carga de trabalho dos sistemas legados existentes quanto fornecendo a capacidade de fazer perguntas “aqui, agora” sobre o comportamento do cliente e o estado atual do Banco.

Velocidade de lançamento


Fluxos de dados rápidos podem ser movidos online com o mínimo esforço devido a uma nova plataforma inovadora no Santander UK, que integra sistemas legados com um novo Data Vault via Apache Kafka. Devido à estrutura limpa dos dados sendo integrados, um novo feed de fluxo de eventos para preencher o Apache Kudu Data Vault é amplamente orientado à configuração – eventos de dados em conformidade com a estrutura Hub, Satellite e Link da metodologia Data Vault 2.0. Isso permite que o esquema reaja a mudanças nos negócios ou a um novo entendimento de como os dados devem ser conformados.

O Santander UK pode afetar as transformações de dados dimensionando a plataforma de entrega de eventos elásticos, baseada em Scala Akka e Apache Kafka, permitindo o enriquecimento de dados rápido e escalável em tempo real. Isso permite dados mais rápidos e oportunos, decisões mais rápidas e maior velocidade de comercialização para casos de uso devido à plataforma e arquitetura reutilizáveis.

Ciência de dados e prototipagem rápida de produtos de dados


Em última análise, existem muitos consumidores em potencial dessa fonte de dados de streaming; no entanto, uma visão interessante já foi obtida por meio da integração do Cloudera Data Science Workbench ao Data Vault. Eles fornecem uma experiência abrangente de Data Science para a crescente equipe de Data Science e também usam – de maneira tipicamente inovadora do Santander UK – o potencial de prototipar ideias rapidamente e criar novos produtos de dados antes de enfrentar desafios pesados ​​de engenharia e arquitetura. Construa um protótipo rápido e então, se gerar valor, desenvolva-o em um produto de primeira classe.

Integração rápida:o modelo de contribuição


Na linha da inovação e agilidade que a equipe de Inovação de Dados do Santander UK tornou realidade, eles criaram a noção do Modelo de Contribuição. Como o cluster é multilocatário, com diferentes unidades de negócios fornecendo, limpando e criando novos conjuntos de dados; se for considerado útil para o resto do negócio, as tabelas de link de estilo do Data Vault podem ser utilizadas para integrar esses dados geralmente úteis ao núcleo do esquema do Data Vault. Dessa forma, a equipe pode aumentar o valor dos produtos de dados por meio da geração rápida de novas combinações de conjuntos de dados, com linhagem rastreável usando Cloudera Navigator para governança e segurança usando Apache Sentry para controle de acesso. Se os dados da unidade de negócios forem considerados úteis para outras pessoas, eles são vinculados ao núcleo e compartilhados de acordo com os princípios de governança.


O Modelo de Contribuição nos permite alavancar conjuntos de dados puros que são criados independentemente por diferentes unidades de negócios e equipes de produtos. Se esses dados forem valiosos para o restante da empresa, temos a capacidade de trazê-los para o Data Vault como um cidadão de primeira classe por meio da utilização de tabelas de links. Queríamos replicar a abordagem da comunidade Apache para software de código aberto para sistemas de dados em nossa organização para melhorar a inovação por meio da colaboração.

    – Nicolette Bullivant – Chefe de Engenharia de Dados, Santander UK

Multi-destino:um fluxo para todos governar


Os fluxos de eventos brutos gerados a partir de sistemas legados são considerados canônicos e geralmente são exigidos por outras partes interessadas que usam o cluster. A equipe de inovação de dados do Santander UK adotou o princípio de garantir que esses fluxos de eventos estejam disponíveis para utilização por diferentes casos de uso e tecnologias; assim, um fluxo de eventos canônico pode ser redistribuído para diferentes destinos; sistema de arquivos HDFS, Apache HBase ou Apache Kudu. Isso ajuda a gerar uma versão única da verdade para todas as partes interessadas, ao mesmo tempo em que evita a pressão de volta nos sistemas legados.

Conclusão


Em suma, o Santander UK está inovando diretamente na pilha Cloudera, combinando dados de streaming, princípios e estruturas avançadas de engenharia de software e princípios modernos de design de data warehouse para gerar insights em tempo real para melhorar a experiência do cliente e o bem-estar financeiro do cliente. Essa inovação foi recentemente reconhecida quando um painel de jurados de terceiros elegeu o Santander como finalista do Data Impact Award.

Nicolette Bullivant é chefe de engenharia de dados do Santander UK.
Rob Siwicki é arquiteto de soluções sênior para serviços profissionais da Cloudera, EMEA.