HBase
 sql >> Base de Dados >  >> NoSQL >> HBase

Introdução, funcionamento e vantagens do Hadoop Combiner


Neste tutorial do Hadoop , forneceremos uma descrição detalhada do Hadoop Combiner. Antes de tudo, veremos o que é o MapReduce Combiner, qual é o papel principal do Combiner no MapReduce.

Em seguida, discutiremos o exemplo do programa MapReduce com e sem combinador no Hadoop. Por fim, veremos também algumas vantagens e desvantagens do Combiner no MapReduce.


 O que é o Hadoop Combiner?


Combinador também é conhecido como “Mini-Redutor ” que resume o Mapeador registro de saída com a mesma chave antes de passar para o Redutor .

Em um grande conjunto de dados quando executamos o trabalho MapReduce. Assim, o Mapper gera grandes blocos de dados intermediários. Em seguida, a estrutura passa esses dados intermediários no Redutor para processamento adicional.

Isso leva a um enorme congestionamento de rede. A estrutura do Hadoop fornece uma função conhecida como Combiner  que desempenha um papel fundamental na redução do congestionamento da rede.

O trabalho principal do Combiner um “Mini-Reducer é processar os dados de saída do Mapper, antes de passá-los para o Reducer. Ele é executado após o mapeador e antes do redutor. Seu uso é opcional.

Como o Combiner funciona no Hadoop?


Agora vamos aprender como as coisas mudam quando usamos o combinador no MapReduce?



Como vemos no diagrama acima, nenhum combinador está lá. A entrada é dividida em dois mapeadores. A estrutura gera 9 chaves dos mapeadores.

Então, agora temos dados intermediários (9 chave/valor). Outros mapeadores enviam este valor-chave diretamente ao redutor. Ao enviar dados para o redutor, ele consome alguma largura de banda da rede. Leva mais tempo para transferir dados para o redutor se o tamanho dos dados for grande.



Agora, do diagrama acima, se usarmos um combinador entre o mapeador e o redutor. Em seguida, o combinador embaralhará 9 chaves/valores antes de enviá-lo ao redutor. E, em seguida, gera 4 pares de chave/valor como saída.

Agora, o Reducer precisa processar apenas 4 dados de pares de chave/valor que são gerados a partir de 2 combinadores. Portanto, o redutor é executado apenas 4 vezes para produzir a saída final. Assim, isso aumenta o desempenho geral.

Vantagens do Combiner no MapReduce


Vamos agora discutir os benefícios do Hadoop Combiner no MapReduce.
  • O uso do combinador reduz o tempo necessário para a transferência de dados entre o mapeador e o redutor.
  • O Combiner melhora o desempenho geral do redutor.
  • Diminui a quantidade de dados que o redutor precisa processar.

Desvantagens do Combiner no MapReduce


Há também algumas desvantagens do Hadoop Combiner. Vamos agora discutir o mesmo.
  • No sistema de arquivos local, quando o Hadoop armazena os pares chave-valor e executa o combinador posteriormente, isso causará E/S de disco cara.
  • As tarefas MapReduce não podem depender da execução do combinador, pois não há garantia em sua execução.

Conclusão


Portanto, o Hadoop Combiner desempenha um papel fundamental na redução do congestionamento da rede. Ele melhora o desempenho geral do redutor resumindo a saída do Mapper.

Espero que agora você tenha uma compreensão clara do Hadoop Combiner. Se ainda tiver alguma dúvida, por favor, avise-nos deixando um comentário em uma seção abaixo.