HBase
 sql >> Base de Dados >  >> NoSQL >> HBase

20 Diferença notável entre o Hadoop 2.x e o Hadoop 3.x


O objetivo deste tutorial do Hadoop é fornecer uma compreensão mais clara entre as diferentes versões do Hadoop. Neste blog, abordamos as principais 20 Diferenças entre o Hadoop 2.x e o Hadoop 3.x.

Este blog aborda a diferença entre o Hadoop 2 e o Hadoop 3 com base em diferentes recursos.

Diferença entre o Hadoop 2.x e o Hadoop 3.x


Apache Hadoop é uma estrutura de software de código aberto para armazenamento distribuído e processamento de uma grande quantidade de conjuntos de dados.

O Hadoop 3.x foi introduzido para superar a limitação do Hadoop 2.x. O Hadoop 3.x adicionou alguns novos recursos, embora os recursos antigos ainda sejam usados.

A comparação detalhada de recursos entre o Hadoop 2.x e o Hadoop 3.x é fornecida abaixo:

a. Licença

  • Hadoop 2 .x- Apache 2.0, código aberto
  • Hadoop 3 .x- Apache 2.0, código aberto

b. Versão mínima suportada do Java

  • Hadoop 2 .x- Java7.
  • Hadoop 3 .x- Java8.

c. Tolerância a falhas

  • Hadoop 2.x- Nesta versão, a replicação trata da tolerância a falhas.
  • Hadoop 3.x- Nesta versão, a codificação de eliminação lida com a tolerância a falhas.

d. Balanceamento de dados

  • Hadoop 2.x- Usa HDFS Balanceador para balanceamento de dados
  • Hadoop 3.x- Usa o balanceador de nó intra-dados, que é invocado por meio da CLI do balanceador de disco HDFS.

e. Esquema de armazenamento

  • Hadoop 2.x- Usa esquema de replicação 3X.
  • Hadoop 3.x- Usa a codificação Erasure.

f. Sobrecarga de armazenamento

  • Hadoop 2.x- Nesta versão, o HDFS tem 200% de sobrecarga no espaço de armazenamento.
  • Hadoop 3.x- Nesta versão, o HDFS tem 50% de sobrecarga no espaço de armazenamento.

g. Exemplo de sobrecarga de armazenamento

  • Hadoop 2.x- Se houver 6 blocos e replicação 3x de cada bloco, resultará em 18 blocos. Ele ocupará 18 blocos de espaço.
  • Hadoop 3.x- Se houver 6 blocos, ocupará 9 espaços de bloco, ou seja, 6 blocos e 3 para paridade.

h. Serviço de linha do tempo YARN

  • Hadoop 2.x- Usa o serviço de linha do tempo antigo que tem problemas de escalabilidade.
  • Hadoop 3.x- Esta versão melhora o serviço de linha do tempo v2. Também melhora a escalabilidade e a confiabilidade do serviço de linha do tempo.

j. Intervalo de portas padrão

  • Hadoop 2.x- Nesta versão, as portas padrão são o intervalo de portas efêmeras do Linux. Portanto, no momento da inicialização, eles não serão vinculados.
  • Hadoop 3.x- Enquanto esta versão é movida para fora do intervalo efêmero.

k. Ferramentas

  • Hadoop 2.x- Hive, pig, Tez, Hama e outras ferramentas do Hadoop também estão disponíveis.
  • Hadoop 3.x- Nesta versão também estão disponíveis Hive, pig, Tez, Hama e outras ferramentas do Hadoop.

l. Sistema de arquivos compatível

  • Hadoop 2.x- Ele é compatível com HDFS (FS padrão), sistema de arquivos FTP:também armazena todos os dados em servidores FTP acessíveis remotamente. Ele também oferece suporte ao sistema de arquivos do Amazon S3 (Simple Storage Service) Windows Azure Storage Blobs (WASB).
  • Hadoop 3.x- Ele suporta todos os anteriores, bem como o sistema de arquivos Microsoft Azure Data Lake.

m. Recursos do Datanode

  • Hadoop 2.x- Para o recurso MapReduce Datanode não é dedicado. Também podemos usá-lo para outro aplicativo.
  • Hadoop 3.x- Nesta versão, o recurso de nó de dados também pode ser usado para outros aplicativos.

n. Compatibilidade da API MR

  • Hadoop 2.x- API MR compatível com o programa Hadoop 1.x para execução no Hadoop 2.X
  • Hadoop 3.x- A API MR também é compatível com a execução de programas Hadoop 1.x para execução no Hadoop 3.X

o. Suporte para Microsoft

  • Hadoop 2.x- Ele pode ser implantado no Windows.
  • Hadoop 3.x- Ele também é compatível com o Microsoft Windows.

pág. Slots/contêiner

  • Hadoop 2.x- O Hadoop 1.x funciona no conceito de slots, enquanto o Hadoop 2.X trabalha no conceito de contêiner.
  • Hadoop 3.x- O Hadoop 3.x também funciona no conceito de contêiner.

q. Ponto único de falha

  • Hadoop 2.x- Tem as características para superar SPOF. Portanto, sempre que o NameNode falhar, ele será recuperado automaticamente.
  • Hadoop 3.x- Ele também tem os recursos para superar o SPOF. Assim, sempre que o NameNode falhar, ele se recupera automaticamente, sem necessidade de intervenção manual.

r. Federação HDFS

  • Hadoop 2.x- No Hadoop 1.x, apenas um único NameNode para gerenciar todos os namespaces. Mas o Hadoop 2.x tem vários NameNode para vários namespaces.
  • Hadoop 3.x-  Ele também possui vários Namenode para vários namespaces.

s. Escalabilidade

  • Hadoop 2.x- Podemos escalar até 10.000 nós por cluster.
  • Hadoop 3.x- Podemos dimensionar mais de 10.000 nós por cluster.

t. Instantâneo HDFS

  • Hadoop 2.x- Adiciona o suporte para um instantâneo. Ele também oferece recuperação de desastres e proteção contra erros do usuário.
  • Hadoop 3.x- Ele também suporta o recurso de instantâneo.

u. Plataforma

  • Hadoop 2.x- Ele serve como uma plataforma para uma ampla variedade de análises de dados. Também é possível executar processamento de eventos, streaming e operações em tempo real.
  • Hadoop 3.x- Também é possível executar processamento de eventos, streaming e operação em tempo real na parte superior do YARN.

Conclusão


Em conclusão, o Hadoop 3.0 adicionou novos recursos, como codificação de eliminação, para lidar com a tolerância a falhas. O Hadoop 3.x também reduz a sobrecarga de armazenamento em 200% a 50%.

Ele também introduziu uma nova ferramenta de linha de comando chamada Disk balancer. Portanto, o Hadoop 3.x melhorou o desempenho geral.

Se você encontrar alguma outra diferença entre o Hadoop 2.x e o Hadoop 3.x, informe-nos na seção de comentários.