MongoDB
 sql >> Base de Dados >  >> NoSQL >> MongoDB

MongoDB® com Hadoop e tecnologias de Big Data relacionadas

Bancos de Dados Relacionais por muito tempo foram suficientes para lidar com conjuntos de dados pequenos ou médios. Mas a taxa colossal em que os dados estão crescendo torna a abordagem tradicional de armazenamento e recuperação de dados inviável. Este problema está sendo resolvido por tecnologias mais recentes que podem lidar com Big Data. Hadoop, Hive e Hbase são as plataformas populares para operar este tipo de grandes conjuntos de dados. Bancos de dados NoSQL ou Not Only SQL, como o MongoDB®, fornecem um mecanismo para armazenar e recuperar dados no modelo de consistência perdedora com vantagens como:

  • Escala horizontal
  • Maior disponibilidade
  • Acesso mais rápido

A equipe de engenharia do MongoDB® atualizou recentemente o MongoDB® Connector para Hadoop para ter uma melhor integração. Isso torna mais fácil para os usuários do Hadoop:

  • Integre dados em tempo real do MongoDB® com o Hadoop para análises offline profundas.
  • O Connector expõe o poder analítico do MapReduce do Hadoop para dados de aplicativos ativos do MongoDB®, gerando valor de big data com mais rapidez e eficiência.
  • O Conector apresenta o MongoDB como um sistema de arquivos compatível com Hadoop, permitindo que um trabalho MapReduce leia diretamente do MongoDB® sem primeiro copiá-lo para HDFS (Hadoop file System), eliminando assim a necessidade para mover Terabytes de dados pela rede.
  • As tarefas MapReduce podem passar consultas como filtros, evitando assim a necessidade de varrer coleções inteiras, e também podem aproveitar os recursos de indexação do MongoDB®, incluindo geoespacial, text- índices de pesquisa, matriz, compostos e esparsos.
  • Lendo do MongoDB®, os resultados das tarefas do Hadoop também podem ser gravados no MongoDB®, para oferecer suporte a processos operacionais em tempo real e consultas ad-hoc.

Casos de uso do Hadoop e MongoDB®:

Vejamos uma descrição de alto nível de como o MongoDB® e o Hadoop podem se encaixar em uma pilha de Big Data típica. Principalmente temos:

  • MongoDB® usado como o armazenamento de dados em tempo real "operacional"
  • Hadoop para processamento e análise de dados em lote offline

Continue lendo para saber por que MongoDB é o banco de dados para processamento de Big Data e como o MongoDB® foi usado por empresas e organizações como Aadhar, Shutterfly, Metlife e eBay.

Aplicação do MongoDB® com Hadoop em Agregação em Lote:

Na maioria dos cenários, a funcionalidade de agregação integrada fornecida pelo MongoDB® é suficiente para analisar dados. No entanto, em certos casos, pode ser necessária uma agregação de dados significativamente mais complexa. É aqui que o Hadoop pode fornecer uma estrutura poderosa para análises complexas.

Neste cenário:

  • Os dados são extraídos do MongoDB® e processados ​​no Hadoop por meio de um ou mais trabalhos MapReduce. Os dados também podem ser obtidos de outros locais dentro desses trabalhos do MapReduce para desenvolver uma solução de várias fontes de dados.
  • A saída desses trabalhos do MapReduce pode ser gravada de volta no MongoDB® para consulta em um estágio posterior e para qualquer análise ad hoc.
  • Aplicativos criados com base no MongoDB® podem, portanto, usar as informações da análise de lote para apresentar ao cliente final ou para habilitar outros recursos downstream.


Aplicação em Data Warehousing:

Em uma configuração de produção típica, os dados do aplicativo podem residir em vários armazenamentos de dados, cada um com sua própria linguagem de consulta e funcionalidade. Para reduzir a complexidade nesses cenários, o Hadoop pode ser usado como um data warehouse e atuar como um repositório centralizado de dados de várias fontes.

Neste tipo de cenário:

  • Tarefas periódicas do MapReduce carregam dados do MongoDB® para o Hadoop.
  • Quando os dados do MongoDB® e de outras fontes estiverem disponíveis no Hadoop, o conjunto de dados maior poderá ser consultado.
  • Os analistas de dados agora têm a opção de usar MapReduce ou Pig para criar tarefas que consultam conjuntos de dados maiores que incorporam dados do MongoDB®.


A equipe que trabalha por trás do MongoDB® garantiu que, com sua rica integração com tecnologias de Big Data como o Hadoop, seja capaz de se integrar bem ao Big Data Stack e ajudar a resolver alguns problemas arquitetônicos complexos quando se trata de armazenamento, recuperação, processamento, agregação e armazenamento de dados. Fique atento ao nosso próximo post sobre perspectivas de carreira para aqueles que adotam o Hadoop com o MongoDB®. Se você já está trabalhando com o Hadoop ou apenas começando o MongoDB®, confira os cursos que oferecemos para o MongoDB® aqui

Explore mais sobre os conceitos do Hadoop. Confira este Curso de Big Data on-line , que foi criado pela Top Industrial Working Experts.