Entendendo o recurso de alta disponibilidade do Hadoop

Este blog fornece uma descrição do Hadoop Recurso de alta disponibilidade HDFS. Neste blog, primeiro discutiremos o que é exatamente alta disponibilidade, como o Hadoop alcança alta disponibilidade, qual é a necessidade do recurso de alta disponibilidade HDFS.

Também abordaremos o exemplo do recurso de alta disponibilidade do Hadoop neste tutorial do Hadoop de Big Data.

O que é alta disponibilidade do Hadoop HDFS?

Hadoop HDFS é um sistema de arquivos distribuído. O HDFS distribui dados entre os nós no cluster Hadoop criando uma réplica do arquivo. A estrutura do Hadoop armazena essas réplicas de arquivos nas outras máquinas presentes no cluster.

Assim, quando um cliente HDFS deseja acessar seus dados, ele pode acessar facilmente esses dados de várias máquinas presentes no cluster. Os dados estão facilmente disponíveis no nó mais próximo do cluster.

Em algumas condições desfavoráveis, como uma falha de um nó, o cliente pode acessar facilmente seus dados de outros nós. Esse recurso do Hadoop é chamado de Alta Disponibilidade .

Como a alta disponibilidade é alcançada no Hadoop?

No cluster HDFS, há vários DataNodes . Após o intervalo de tempo definido, todos esses DataNodes enviam mensagens de pulsação para o NameNode . Se o NameNode parar de receber mensagens de pulsação de qualquer um desses DataNodes, ele assumirá que ele está morto.

Depois disso, ele verifica os dados presentes nesses nós e, em seguida, dá comandos ao outro datanode para criar uma réplica desses dados para outros datanodes. Portanto, os dados estão sempre disponíveis.

Quando um cliente solicita um acesso a dados no HDFS, em primeiro lugar, o NameNode procura os dados naqueles datanodes, nos quais os dados são rapidamente disponibilizados. E, em seguida, fornece acesso a esses dados ao cliente.

Os clientes não precisam procurar os dados em todos os datanodes. O próprio HDFS Namenode facilita a disponibilidade de dados para os clientes, fornecendo o endereço do datanode de onde um usuário pode ler diretamente.

Exemplo de alta disponibilidade do Hadoop

O Hadoop HDFS fornece alta disponibilidade de dados. Quando o cliente solicita NameNode para acesso aos dados, o NameNode procura todos os nós nos quais esses dados estão disponíveis.

Depois disso, ele fornece acesso a esses dados ao usuário a partir do nó no qual os dados estavam rapidamente disponíveis. usuário para o outro nó no qual os mesmos dados estão disponíveis.

Sem qualquer interrupção, os dados são disponibilizados ao usuário. Portanto, em condições de falha de nó, os dados também estão altamente disponíveis para os usuários.

Quais eram os problemas nos sistemas legados?

Os dados estavam indisponíveis devido à falha da máquina.
O cliente HDFS precisa esperar um longo período para acessar seus dados. Na maioria das vezes, os usuários precisam esperar um determinado período de tempo até que o site fique ativo.
Funcionalidades e recursos limitados.
Devido à indisponibilidade de dados, a conclusão de muitos projetos importantes nas organizações é estendida por um longo período de tempo e, portanto, as empresas precisam passar por situações críticas.

Conclusão

Portanto, os dados no Hadoop são altamente disponíveis e acessíveis, apesar da falha de hardware devido a várias cópias de dados. Portanto, se algum nó ou máquina travar ou ficar inativo, os dados podem ser acessados de outro caminho. Saiba mais Recursos HDFS.

Se você achar este blog útil sobre a alta disponibilidade do Hadoop, compartilhe seus pensamentos na seção de comentários.