HBase
 sql >> Base de Dados >  >> NoSQL >> HBase

HDFS Disk Balancer Introdução, Operações e Recursos


Neste blog de Hadoop Tutorial, estamos indo para cobrir HDFS Disk Balancer em detalhe. Primeiro de tudo vamos discutir o que é Disk Balancer em Hadoop, então vamos discutir várias operações de balanceador Hadoop Disk.

Também vamos discutir o Intra DataNode Disk Balancer em Hadoop e seu algorithum. Finalmente, neste tutorial, vamos cobrir o Características do Hadoop balanceador HDFS disco em detalhe.

Introdução ao HDFS Disk Balancer


balanceador HDFS Disk é uma ferramenta de linha de comando. Ele distribui dados de maneira uniforme em todos os discos de um DataNode. balanceador HDFS Disk é completamente diferente do Balancer, que cuida de databalancing todo o cluster.

Devido ao abaixo razões, HDFS nem sempre pode distribuir dados de maneira uniforme entre os discos:
  • Um monte de escrita e exclusões
  • substituição de disco

Isto leva a inclinação significativa dentro de um DataNode. Assim HDFS Balancer não pode lidar com isso, que se preocupa com o Inter, não-Intra, DN inclinação.

Assim, uma nova funcionalidade Intra-DataNode Balancing passou a existir para lidar com esta situação. Esta é invocado através do HDFS Disk Balancer CLI.

Disk Balancer trabalha contra um determinado DataNode e move blocos de um disco para outro.

Operação de Disco Balancer


Ao criar um plano (um conjunto de instruções) e executar esse plano na DataNode, balanceador de HDFS Disk funciona. Estes conjuntos de declarações descrevem a quantidade de dados deve mover-se entre dois discos.

Um plano tem muitas etapas de movimentação. Estes passos movimento tem um número de bytes para mover, disco de origem, e disco de destino. Um plano pode executar contra um DataNode operacional.

balanceador HDFS Disk não está habilitado por padrão;

Então, para permitir HDFS balanceador de disco dfs.disk.balancer.enabled é definido true em hdfs-site.xml .

HDFS Intra-DataNode DiskBalancer


Quando write usuário novo bloco no HDFS, por isso, usando o volume escolhendo DataNode política de escolher o disco para o bloco. Abaixo estão duas dessas políticas:
  • Round-robin - Esta política distribui os novos blocos de maneira uniforme entre os discos disponíveis.
  • espaço disponível - Esta política grava dados no disco que tenha mais espaço livre em porcentagem.

Por padrão HDFS DataNode utiliza a política de rodízio.

DataNode ainda criar volume desequilíbrio significativo devido ao apagamento de arquivos em massa e além no HDFS. É mesmo possível que o espaço disponível política de escolha de volume com base pode levar a menos eficiente do disco I / O.

Cada nova gravação irá para o novo disco vazio adicionado enquanto naquela época os outros discos foram ocioso. Assim, criando um gargalo no novo disco.

Para reduzir o problema de desequilíbrio de dados, a comunidade Apache Hadoop desenvolvido scripts de servidor offline. HDFS-1312 também introduziu um balanceador de disco online. Esta re-equilibra os volumes em um DataNode funcionando com base em vários indicadores.

Habilidades de HDFS Disk Balancer

1. relatório de propagação de dados


O usuário pode medir como espalhar dados por meio de métricas.
a) a densidade de dados de volume ou a densidade de dados intra-nó

Este métricas pode calcular a quantidade de dados estiver em um nó. Também diga o armazenamento ideal em cada volume é.

Fórmula para a computação, isto é Total de dados no nó que dividida pela capacidade total do disco desse nó.

armazenamento ideal =capacidade total
densidade de dados volume utilizado =% total de armazenamento ideal - dfsUsedRatio
  • valor positivo - Isso indica indicam que o disco está sub-utilizado.
  • Valor negativo - Isso indica que o disco está over-utilizado.
b) a densidade de dados do nó ou o nó entre a densidade de dados

Como agora temos calculada a densidade de dados volume. Assim, podemos facilmente comparar qual todos nós na necessidade centro de dados para equilibrar?
c) Relatórios

Agora, temos a densidade de dados de volume e densidade de dados nó. Então balanceador de disco pode equilibrar as 20 maiores nós do cluster que têm a distribuição de dados distorcidos.

2. dados do balanço entre o volume enquanto DataNode estão vivos


balanceador HDFS disco tem a capacidade de mover dados de um volume para outro.

Conclusão


Em conclusão, podemos dizer que Disk Balancer é a ferramenta que distribui dados em todos os discos de um DataNode. Ele funciona através da criação de um plano (conjunto de instruções) e executar esse plano na DataNode.

usos HDFS Disk Balancer Round-robin e Espaço disponível políticas para a escolha do disco para o bloco. Se você encontrar este blog útil, ou você tiver qualquer dúvida, por isso, por favor, compartilhe com a gente na seção de comentários. Teremos o maior prazer para resolvê-los.