Bloco de dados HDFS – Aprenda os aspectos internos do Big Data Hadoop

Neste tutorial do Hadoop de big data , forneceremos uma descrição detalhada do bloco de dados Hadoop HDFS. Em primeiro lugar, abordaremos o que é bloco de dados no Hadoop, qual é sua importância, por que o tamanho dos blocos de dados HDFS é de 128 MB.

Também discutiremos o exemplo de blocos de dados no Hadoop e várias vantagens do HDFS no Hadoop.

Introdução ao bloco de dados HDFS

Hadoop HDFS divida arquivos grandes em pequenos pedaços conhecidos como Blocos . Bloco é a representação física dos dados. Ele contém uma quantidade mínima de dados que podem ser lidos ou gravados. O HDFS armazena cada arquivo como blocos. O cliente HDFS não tem nenhum controle sobre o bloco, como a localização do bloco, o Namenode decide todas essas coisas.

Por padrão, o tamanho do bloco HDFS é 128 MB que você pode alterar de acordo com sua exigência. Todos os blocos HDFS são do mesmo tamanho, exceto o último bloco, que pode ser do mesmo tamanho ou menor.

A estrutura do Hadoop divide os arquivos em blocos de 128 MB e, em seguida, armazena no sistema de arquivos do Hadoop. O aplicativo Apache Hadoop é responsável por distribuir o bloco de dados em vários nós.

Exemplo-

Suponha que o tamanho do arquivo seja de 513 MB e estamos usando a configuração padrão de tamanho de bloco de 128 MB. Em seguida, a estrutura do Hadoop criará 5 blocos, os primeiros quatro blocos de 128 MB, mas o último bloco será de apenas 1 MB.

Portanto, no exemplo, fica claro que não é necessário que no HDFS cada arquivo armazenado seja um múltiplo exato do tamanho do bloco configurado de 128 MB, 256 MB etc. Portanto, o bloco final do arquivo usa apenas o espaço necessário.

Por que o tamanho do bloco HDFS é de 128 MB?

O HDFS armazena terabytes e petabytes de dados. Se o tamanho do bloco HDFS for 4kb como o sistema de arquivos Linux, teremos muitos blocos de dados no Hadoop HDFS, portanto, muitos metadados.

Portanto, manter e gerenciar esse grande número de blocos e metadados criará uma enorme sobrecarga e tráfego, algo que não queremos.

O tamanho do bloco não pode ser tão grande que o sistema espere muito tempo para que uma última unidade de processamento de dados termine seu trabalho.

Vantagens do HDFS

Depois de aprender o que é o HDFS Data Block, vamos agora discutir as vantagens do Hadoop HDFS.

1. Capacidade de armazenar arquivos muito grandes

O Hadoop HDFS armazena arquivos muito grandes que são ainda maiores do que o tamanho de um único disco, pois a estrutura do Hadoop divide o arquivo em blocos e distribui em vários nós.

2. Tolerância a falhas e alta disponibilidade do HDFS

A estrutura do Hadoop pode replicar facilmente os blocos entre os datanodes. Assim, forneça tolerância a falhas e alta disponibilidade HDFS.

3. Simplicidade de gerenciamento de armazenamento

Como o HDFS possui tamanho de bloco fixo (128 MB), é muito fácil calcular o número de blocos que podem ser armazenados no disco.

4. Mecanismo de armazenamento simples para datanodes

Block in HDFS simplifica o armazenamento dos Datanodes . Namenode mantém metadados de todos os blocos. O HDFS Datanode não precisa se preocupar com os metadados do bloco, como permissões de arquivo, etc.

Conclusão

Portanto, o bloco de dados HDFS é a menor unidade de dados em um sistema de arquivos. O tamanho padrão do bloco HDFS é de 128 MB, que você pode configurar conforme a necessidade. Os blocos HDFS são fáceis de replicar entre os datanodes. Portanto, forneça tolerância a falhas e alta disponibilidade de HDFS.

Para qualquer consulta ou sugestão relacionada aos blocos de dados do Hadoop HDFS, informe-nos deixando um comentário em uma seção abaixo.