HBase
 sql >> Base de Dados >  >> NoSQL >> HBase

Os 6 principais recursos do HDFS – um tutorial do Hadoop HDFS


Em nosso blog anterior, aprendemos Hadoop HDFS em detalhes, agora neste blog, vamos cobrir os recursos do HDFS. O Hadoop HDFS possui recursos como tolerância a falhas, replicação, confiabilidade, alta disponibilidade, armazenamento distribuído, escalabilidade etc.

Todos esses recursos do HDFS no Hadoop serão discutidos neste tutorial do Hadoop HDFS.


Introdução ao Hadoop HDFS


Sistema de arquivos distribuídos Hadoop (HDFS) é o sistema de armazenamento primário do Hadoop. Ele armazena arquivos muito grandes executados em um cluster de hardware comum. O HDFS é baseado no GFS (Google FileSystem). Ele armazena dados de forma confiável, mesmo em caso de falha de hardware.

O HDFS também fornece acesso de alto rendimento ao aplicativo acessando em paralelo. De acordo com uma previsão até o final de 2017, 75% dos dados disponíveis no planeta estarão residindo em HDFS.

6 recursos importantes do HDFS


Depois de estudar a introdução do Hadoop HDFS, vamos agora discutir os recursos mais importantes do HDFS.

1. Tolerância a falhas


A tolerância a falhas no Hadoop HDFS é a força de trabalho de um sistema em condições desfavoráveis. É altamente tolerante a falhas. A estrutura do Hadoop divide os dados em blocos. Depois disso, cria várias cópias de blocos em diferentes máquinas no cluster.

Assim, quando qualquer máquina no cluster fica inativa, um cliente pode acessar facilmente seus dados da outra máquina que contém a mesma cópia dos blocos de dados.

2. Alta disponibilidade


O Hadoop HDFS é um sistema de arquivos altamente disponível. No HDFS, os dados são replicados entre os nós no cluster Hadoop criando uma réplica dos blocos nos outros escravos presentes no cluster HDFS. Assim, sempre que um usuário deseja acessar esses dados, ele pode acessar seus dados a partir dos escravos que contêm seus blocos.

No momento de situações desfavoráveis ​​como uma falha de um nó, um usuário pode acessar facilmente seus dados dos outros nós. Porque cópias duplicadas de blocos estão presentes em outros nós no cluster HDFS.

3. Alta confiabilidade


O HDFS fornece armazenamento de dados confiável. Ele pode armazenar dados na faixa de 100s de petabytes. O HDFS armazena dados de forma confiável em um cluster. Ele divide os dados em blocos. A estrutura do Hadoop armazena esses blocos em nós presentes no cluster HDFS.

O HDFS armazena dados de forma confiável criando uma réplica de cada bloco presente no cluster. Portanto, fornece facilidade de tolerância a falhas. Se o nó no cluster que contém os dados ficar inativo, um usuário poderá acessar facilmente esses dados dos outros nós.

O HDFS por padrão cria 3 réplicas de cada bloco contendo dados presentes nos nós. Assim, os dados estão rapidamente disponíveis para os usuários. Portanto, o usuário não enfrenta o problema de perda de dados. Assim, o HDFS é altamente confiável.

4. Replicação


A Replicação de Dados é um recurso exclusivo do HDFS. A replicação resolve o problema de perda de dados em condições desfavoráveis, como falha de hardware, travamento de nós, etc. O HDFS mantém o processo de replicação em intervalos regulares de tempo.

O HDFS também continua criando réplicas de dados do usuário em diferentes máquinas presentes no cluster. Assim, quando qualquer nó cai, o usuário pode acessar os dados de outras máquinas. Assim, não há possibilidade de perda de dados do usuário.

5. Escalabilidade


O Hadoop HDFS armazena dados em vários nós no cluster. Portanto, sempre que os requisitos aumentarem, você poderá dimensionar o cluster. Dois mecanismos de escalabilidade estão disponíveis no HDFS:Vertical e Escalabilidade Horizontal.

6. Armazenamento distribuído


Todos os recursos do HDFS são obtidos por meio de armazenamento distribuído e replicação. O HDFS armazena dados de maneira distribuída entre os nós. No Hadoop, os dados são divididos em blocos e armazenados nos nós presentes no cluster HDFS.

Depois disso, o HDFS cria a réplica de cada bloco e armazena em outros nós. Quando uma única máquina no cluster trava, podemos acessar facilmente nossos dados de outros nós que contêm sua réplica.

Conclusão


Em conclusão, podemos dizer que o HDFS é altamente tolerante a falhas. Ele armazena de forma confiável uma enorme quantidade de dados, apesar da falha de hardware. Ele também fornece alta escalabilidade e alta disponibilidade. Portanto, o HDFS capacita a funcionalidade do Hadoop. Se você encontrar algum outro recurso do HDFS, compartilhe conosco na seção de comentários abaixo.