O objetivo deste tutorial do Hadoop é fornecer uma compreensão mais clara entre as diferentes versões do Hadoop. Neste blog, abordamos as principais 20 Diferenças entre o Hadoop 2.x e o Hadoop 3.x.
Este blog aborda a diferença entre o Hadoop 2 e o Hadoop 3 com base em diferentes recursos.
Diferença entre o Hadoop 2.x e o Hadoop 3.x
Apache Hadoop é uma estrutura de software de código aberto para armazenamento distribuído e processamento de uma grande quantidade de conjuntos de dados.
O Hadoop 3.x foi introduzido para superar a limitação do Hadoop 2.x. O Hadoop 3.x adicionou alguns novos recursos, embora os recursos antigos ainda sejam usados.
A comparação detalhada de recursos entre o Hadoop 2.x e o Hadoop 3.x é fornecida abaixo:
a. Licença
- Hadoop 2 .x- Apache 2.0, código aberto
- Hadoop 3 .x- Apache 2.0, código aberto
b. Versão mínima suportada do Java
- Hadoop 2 .x- Java7.
- Hadoop 3 .x- Java8.
c. Tolerância a falhas
- Hadoop 2.x- Nesta versão, a replicação trata da tolerância a falhas.
- Hadoop 3.x- Nesta versão, a codificação de eliminação lida com a tolerância a falhas.
d. Balanceamento de dados
- Hadoop 2.x- Usa HDFS Balanceador para balanceamento de dados
- Hadoop 3.x- Usa o balanceador de nó intra-dados, que é invocado por meio da CLI do balanceador de disco HDFS.
e. Esquema de armazenamento
- Hadoop 2.x- Usa esquema de replicação 3X.
- Hadoop 3.x- Usa a codificação Erasure.
f. Sobrecarga de armazenamento
- Hadoop 2.x- Nesta versão, o HDFS tem 200% de sobrecarga no espaço de armazenamento.
- Hadoop 3.x- Nesta versão, o HDFS tem 50% de sobrecarga no espaço de armazenamento.
g. Exemplo de sobrecarga de armazenamento
- Hadoop 2.x- Se houver 6 blocos e replicação 3x de cada bloco, resultará em 18 blocos. Ele ocupará 18 blocos de espaço.
- Hadoop 3.x- Se houver 6 blocos, ocupará 9 espaços de bloco, ou seja, 6 blocos e 3 para paridade.
h. Serviço de linha do tempo YARN
- Hadoop 2.x- Usa o serviço de linha do tempo antigo que tem problemas de escalabilidade.
- Hadoop 3.x- Esta versão melhora o serviço de linha do tempo v2. Também melhora a escalabilidade e a confiabilidade do serviço de linha do tempo.
j. Intervalo de portas padrão
- Hadoop 2.x- Nesta versão, as portas padrão são o intervalo de portas efêmeras do Linux. Portanto, no momento da inicialização, eles não serão vinculados.
- Hadoop 3.x- Enquanto esta versão é movida para fora do intervalo efêmero.
k. Ferramentas
- Hadoop 2.x- Hive, pig, Tez, Hama e outras ferramentas do Hadoop também estão disponíveis.
- Hadoop 3.x- Nesta versão também estão disponíveis Hive, pig, Tez, Hama e outras ferramentas do Hadoop.
l. Sistema de arquivos compatível
- Hadoop 2.x- Ele é compatível com HDFS (FS padrão), sistema de arquivos FTP:também armazena todos os dados em servidores FTP acessíveis remotamente. Ele também oferece suporte ao sistema de arquivos do Amazon S3 (Simple Storage Service) Windows Azure Storage Blobs (WASB).
- Hadoop 3.x- Ele suporta todos os anteriores, bem como o sistema de arquivos Microsoft Azure Data Lake.
m. Recursos do Datanode
- Hadoop 2.x- Para o recurso MapReduce Datanode não é dedicado. Também podemos usá-lo para outro aplicativo.
- Hadoop 3.x- Nesta versão, o recurso de nó de dados também pode ser usado para outros aplicativos.
n. Compatibilidade da API MR
- Hadoop 2.x- API MR compatível com o programa Hadoop 1.x para execução no Hadoop 2.X
- Hadoop 3.x- A API MR também é compatível com a execução de programas Hadoop 1.x para execução no Hadoop 3.X
o. Suporte para Microsoft
- Hadoop 2.x- Ele pode ser implantado no Windows.
- Hadoop 3.x- Ele também é compatível com o Microsoft Windows.
pág. Slots/contêiner
- Hadoop 2.x- O Hadoop 1.x funciona no conceito de slots, enquanto o Hadoop 2.X trabalha no conceito de contêiner.
- Hadoop 3.x- O Hadoop 3.x também funciona no conceito de contêiner.
q. Ponto único de falha
- Hadoop 2.x- Tem as características para superar SPOF. Portanto, sempre que o NameNode falhar, ele será recuperado automaticamente.
- Hadoop 3.x- Ele também tem os recursos para superar o SPOF. Assim, sempre que o NameNode falhar, ele se recupera automaticamente, sem necessidade de intervenção manual.
r. Federação HDFS
- Hadoop 2.x- No Hadoop 1.x, apenas um único NameNode para gerenciar todos os namespaces. Mas o Hadoop 2.x tem vários NameNode para vários namespaces.
- Hadoop 3.x- Ele também possui vários Namenode para vários namespaces.
s. Escalabilidade
- Hadoop 2.x- Podemos escalar até 10.000 nós por cluster.
- Hadoop 3.x- Podemos dimensionar mais de 10.000 nós por cluster.
t. Instantâneo HDFS
- Hadoop 2.x- Adiciona o suporte para um instantâneo. Ele também oferece recuperação de desastres e proteção contra erros do usuário.
- Hadoop 3.x- Ele também suporta o recurso de instantâneo.
u. Plataforma
- Hadoop 2.x- Ele serve como uma plataforma para uma ampla variedade de análises de dados. Também é possível executar processamento de eventos, streaming e operações em tempo real.
- Hadoop 3.x- Também é possível executar processamento de eventos, streaming e operação em tempo real na parte superior do YARN.
Conclusão
Em conclusão, o Hadoop 3.0 adicionou novos recursos, como codificação de eliminação, para lidar com a tolerância a falhas. O Hadoop 3.x também reduz a sobrecarga de armazenamento em 200% a 50%.
Ele também introduziu uma nova ferramenta de linha de comando chamada Disk balancer. Portanto, o Hadoop 3.x melhorou o desempenho geral.
Se você encontrar alguma outra diferença entre o Hadoop 2.x e o Hadoop 3.x, informe-nos na seção de comentários.