Database
 sql >> Base de Dados >  >> RDS >> Database

Por que aprender Cassandra com o Hadoop?


“As empresas estão percebendo que podem extrair informações valiosas de negócios para melhorar a tomada de decisões e obter vantagem competitiva. Ferramentas como Hadoop e Cassandra estão tornando tudo isso possível e, por causa disso, as habilidades NoSQL em todos os níveis estão em alta demanda.” – Analistas na TechRepublic

Desenvolvido como um projeto interno no Facebook para potencializar seu recurso de pesquisa na caixa de entrada, Cassandra é um Sistema de gerenciamento de banco de dados distribuído de código aberto . Foi lançado como um projeto de código aberto no Google Code em 2008 e posteriormente se tornou um projeto de alto nível na Fundação do Software Apache desde 2010.

Cassandra é a próxima GRANDE COISA:

  • O Apache Cassandra foi projetado para lidar com uma enorme quantidade de dados (em termos de velocidade, volume e variedade) em vários servidores de commodities, garantindo alta disponibilidade e sem SPOF (Single Point of Failure).
  • O Cassandra também oferece suporte potente para clusters que abrangem vários data centers. A ausência de “estrutura mestre-escravo”, como arquiteturas tradicionais, permite impacto zero no sistema se um determinado nó cair.
  • Pesquisadores da Universidade de Toronto que realizam estudos sobre sistemas NoSQL afirmam que, em termos de escalabilidade e taxa de transferência máxima por nó , Cassandra surge como um claro vencedor. O principal foco do NoSQL DBMS é garantir Escalabilidade , Desempenho e Alta Disponibilidade. Como a maioria dos SGBDs NoSQL, o Cassandra pode lidar com dados estruturados e não estruturados e tem um desempenho consideravelmente bom nos parâmetros acima.
  • Cassandra pode servir tanto como armazenamento de dados em tempo real (“o Sistema de Registro”) para aplicativos on-line/transacionais e como um banco de dados de leitura intensiva para os sistemas de Business Intelligence. Leia nossa postagem no blog sobre várias vantagens oferecidas pelo Cassandra para obter mais informações.

Por que usar o Hadoop com Cassandra?


Em termos simples, ter:
  • Carga de trabalho unificada
  • Disponibilidade
  • Implantação mais simples

Quando se trata de Hadoop, as empresas não estão interessadas na estrutura de armazenamento subjacente do Hadoop, mas em seus métodos de entrega econômicos para analisar e processar grandes quantidades de dados. Ser capaz de tomar decisões a partir da saída do MapReduce, Hive, Pig, Mahout e outras operações é o que mais importa para essas organizações.

Pontos-chave a serem lembrados:

  • O Hadoop Distributed File System (HDFS) é um dos muitos componentes e projetos diferentes contidos no ecossistema Hadoop. O projeto Apache Hadoop define HDFS como o sistema de armazenamento primário usado por aplicativos Hadoop .HDFS pode armazenar grandes conjuntos de dados não estruturados distribuídos. Os dados podem ser armazenados diretamente no HDFS ou em um formato semiestruturado no HBase, que permite acesso rápido aos dados em nível de registro e é modelado de acordo com o sistema BigTable do Google. sistema relacional que usa o modelo de dados BigTable , mas emprega o esquema Dynamo da Amazon para distribuição e cluster de dados.
  • O Hadoop faz muitas coisas boas, seus recursos principais do MapReduce são muito fortes. Os especialistas do setor adoram o Hive e seu design semelhante ao SQL. No entanto, o sistema de arquivos HDFS é extremamente complexo de configurar, tem pontos únicos de falha e, de acordo com o feedback de grandes empresas, simplesmente não está pronto para fazer o que eles querem que ele faça . O Cassandra, por outro lado, fornece todos os recursos do nível inferior da pilha do Hadoop. Ao mesmo tempo, o Cassandra também fornece recursos de aplicativos em tempo real de baixa latência nessa mesma infraestrutura.

Como Cassandra e Hadoop podem trabalhar juntos?

Vários fornecedores estão oferecendo alternativas ao HDFS. Um artigo recente de uma organização chamada GigaOM fornece uma visão geral de alto nível de como o Apache Cassandra File System pode ser usado para substituir o HDFS, com mudanças mínimas de programação exigidas de uma perspectiva de desenvolvimento, e como uma série de benefícios podem ser colhidos neste processo. DataStax , um fornecedor comercial líder para distribuições do Cassandra combinou o Cassandra com o Hadoop e o nomeou Brisk. Com o Brisk, o HDFS é substituído pelo Cassandra File System. Explore mais sobre os conceitos do HDFS. Confira este Curso de Big Data on-line , que foi criado pela Top Industrial Working Experts.

Vantagem da combinação Cassandra – Hadoop:

  • Também é possível implementar o Cassandra com o Hadoop no mesmo cluster. Isso significa que você pode ter o melhor dos dois mundos.
  • Tbaseado em tempo e em tempo real rodando em aplicativos do Cassandra (tempo real sendo a força do Cassandra) enquanto análises baseadas em lote e consultas que não requerem um carimbo de data/hora podem ser executados no Hadoop. Nesse tipo de ecossistema, o HDFS é substituído pelo Cassandra e isso é invisível para o desenvolvedor. Pode-se reatribuir dinamicamente, nós entre os ambientes Cassandra e Hadoop conforme apropriado.
  • Cassandra File System remove os pontos únicos de falha que estão associados ao HDFS, ou seja, os pontos de falha NameNode e Job Tracker que estão associados ao HDFS.

A ideia, portanto, é combinar o Cassandra, que é pioneiro no processamento de transações em tempo real de alto volume , com o Hadoop que se destaca em soluções analíticas mais orientadas a lotes .

Cassandra e os Biggies:

Muitas organizações em todos os setores da indústria estão adotando o Cassandra para atingir vários objetivos de negócios. Alguns de destaque são:

  • Netflix – Usa o Cassandra como banco de dados de back-end para seus serviços de streaming.
  • WebEx da Cisco – Usa o Cassandra para armazenar o feed e a atividade do usuário quase em tempo real.
  • SoundCloud – Usa o Cassandra para armazenar o painel de seus usuários.
  • IBM – Fez pesquisas na construção de um sistema de e-mail escalável baseado em Cassandra

Títulos de Cargos que Envolvem Habilidades de Hadoop e Cassandra:

Estudo da Simplyhired mostra que os empregos da Cassandra estão em alta demanda devido à sua alta taxa de adoção no setor, especialmente nos últimos dois anos. E o futuro parece muito promissor.


Vejamos alguns dos cargos que envolvem as habilidades do Hadoop-Cassandra e seus salários mencionados no Indeed.com:

  • Arquiteto de dados: Essa posição rende um salário médio de $ 107.000. Os arquitetos de dados precisam ter alguma experiência na criação de modelos de dados, armazenamento de dados, análise de dados e migração de dados
  • Cientista de Dados: Eles coletam dados, analisam, apresentam os dados visualmente e usam os dados para fazer previsões/previsões. O salário médio de um cientista de dados é de US$ 104.000
  • Engenheiro de Sistemas: O salário médio para engenheiros de sistemas é de US$ 89.000.
  • DBA: Os DBAs ganham em média mais de US$ 100.000.
  • Desenvolvedor de aplicativos de software: Desenvolvedores de software ganham um salário médio de $ 107.000 e desenvolvedores de aplicativos $ 93.000. Pessoas com essas habilidades podem conseguir um amplo trabalho freelance ou podem lançar sua própria startup se tiverem espírito empreendedor.

Postagens relacionadas:

Escolhendo o banco de dados NoSQL correto.

Como abrir o CQLSH do Cassandra instalado no Windows?