20 Diferença notável entre o Hadoop 2.x e o Hadoop 3.x

O objetivo deste tutorial do Hadoop é fornecer uma compreensão mais clara entre as diferentes versões do Hadoop. Neste blog, abordamos as principais 20 Diferenças entre o Hadoop 2.x e o Hadoop 3.x.

Este blog aborda a diferença entre o Hadoop 2 e o Hadoop 3 com base em diferentes recursos.

Diferença entre o Hadoop 2.x e o Hadoop 3.x

Apache Hadoop é uma estrutura de software de código aberto para armazenamento distribuído e processamento de uma grande quantidade de conjuntos de dados.

O Hadoop 3.x foi introduzido para superar a limitação do Hadoop 2.x. O Hadoop 3.x adicionou alguns novos recursos, embora os recursos antigos ainda sejam usados.

A comparação detalhada de recursos entre o Hadoop 2.x e o Hadoop 3.x é fornecida abaixo:

a. Licença

Hadoop 2 .x- Apache 2.0, código aberto
Hadoop 3 .x- Apache 2.0, código aberto

b. Versão mínima suportada do Java

Hadoop 2 .x- Java7.
Hadoop 3 .x- Java8.

c. Tolerância a falhas

Hadoop 2.x- Nesta versão, a replicação trata da tolerância a falhas.
Hadoop 3.x- Nesta versão, a codificação de eliminação lida com a tolerância a falhas.

d. Balanceamento de dados

Hadoop 2.x- Usa HDFS Balanceador para balanceamento de dados
Hadoop 3.x- Usa o balanceador de nó intra-dados, que é invocado por meio da CLI do balanceador de disco HDFS.

e. Esquema de armazenamento

Hadoop 2.x- Usa esquema de replicação 3X.
Hadoop 3.x- Usa a codificação Erasure.

f. Sobrecarga de armazenamento

Hadoop 2.x- Nesta versão, o HDFS tem 200% de sobrecarga no espaço de armazenamento.
Hadoop 3.x- Nesta versão, o HDFS tem 50% de sobrecarga no espaço de armazenamento.

g. Exemplo de sobrecarga de armazenamento

Hadoop 2.x- Se houver 6 blocos e replicação 3x de cada bloco, resultará em 18 blocos. Ele ocupará 18 blocos de espaço.
Hadoop 3.x- Se houver 6 blocos, ocupará 9 espaços de bloco, ou seja, 6 blocos e 3 para paridade.

h. Serviço de linha do tempo YARN

Hadoop 2.x- Usa o serviço de linha do tempo antigo que tem problemas de escalabilidade.
Hadoop 3.x- Esta versão melhora o serviço de linha do tempo v2. Também melhora a escalabilidade e a confiabilidade do serviço de linha do tempo.

j. Intervalo de portas padrão

Hadoop 2.x- Nesta versão, as portas padrão são o intervalo de portas efêmeras do Linux. Portanto, no momento da inicialização, eles não serão vinculados.
Hadoop 3.x- Enquanto esta versão é movida para fora do intervalo efêmero.

k. Ferramentas

Hadoop 2.x- Hive, pig, Tez, Hama e outras ferramentas do Hadoop também estão disponíveis.
Hadoop 3.x- Nesta versão também estão disponíveis Hive, pig, Tez, Hama e outras ferramentas do Hadoop.

l. Sistema de arquivos compatível

Hadoop 2.x- Ele é compatível com HDFS (FS padrão), sistema de arquivos FTP:também armazena todos os dados em servidores FTP acessíveis remotamente. Ele também oferece suporte ao sistema de arquivos do Amazon S3 (Simple Storage Service) Windows Azure Storage Blobs (WASB).
Hadoop 3.x- Ele suporta todos os anteriores, bem como o sistema de arquivos Microsoft Azure Data Lake.

m. Recursos do Datanode

Hadoop 2.x- Para o recurso MapReduce Datanode não é dedicado. Também podemos usá-lo para outro aplicativo.
Hadoop 3.x- Nesta versão, o recurso de nó de dados também pode ser usado para outros aplicativos.

n. Compatibilidade da API MR

Hadoop 2.x- API MR compatível com o programa Hadoop 1.x para execução no Hadoop 2.X
Hadoop 3.x- A API MR também é compatível com a execução de programas Hadoop 1.x para execução no Hadoop 3.X

o. Suporte para Microsoft

Hadoop 2.x- Ele pode ser implantado no Windows.
Hadoop 3.x- Ele também é compatível com o Microsoft Windows.

pág. Slots/contêiner

Hadoop 2.x- O Hadoop 1.x funciona no conceito de slots, enquanto o Hadoop 2.X trabalha no conceito de contêiner.
Hadoop 3.x- O Hadoop 3.x também funciona no conceito de contêiner.

q. Ponto único de falha

Hadoop 2.x- Tem as características para superar SPOF. Portanto, sempre que o NameNode falhar, ele será recuperado automaticamente.
Hadoop 3.x- Ele também tem os recursos para superar o SPOF. Assim, sempre que o NameNode falhar, ele se recupera automaticamente, sem necessidade de intervenção manual.

r. Federação HDFS

Hadoop 2.x- No Hadoop 1.x, apenas um único NameNode para gerenciar todos os namespaces. Mas o Hadoop 2.x tem vários NameNode para vários namespaces.
Hadoop 3.x- Ele também possui vários Namenode para vários namespaces.

s. Escalabilidade

Hadoop 2.x- Podemos escalar até 10.000 nós por cluster.
Hadoop 3.x- Podemos dimensionar mais de 10.000 nós por cluster.

t. Instantâneo HDFS

Hadoop 2.x- Adiciona o suporte para um instantâneo. Ele também oferece recuperação de desastres e proteção contra erros do usuário.
Hadoop 3.x- Ele também suporta o recurso de instantâneo.

u. Plataforma

Hadoop 2.x- Ele serve como uma plataforma para uma ampla variedade de análises de dados. Também é possível executar processamento de eventos, streaming e operações em tempo real.
Hadoop 3.x- Também é possível executar processamento de eventos, streaming e operação em tempo real na parte superior do YARN.

Conclusão

Em conclusão, o Hadoop 3.0 adicionou novos recursos, como codificação de eliminação, para lidar com a tolerância a falhas. O Hadoop 3.x também reduz a sobrecarga de armazenamento em 200% a 50%.

Ele também introduziu uma nova ferramenta de linha de comando chamada Disk balancer. Portanto, o Hadoop 3.x melhorou o desempenho geral.

Se você encontrar alguma outra diferença entre o Hadoop 2.x e o Hadoop 3.x, informe-nos na seção de comentários.