Neste blog de Hadoop Tutorial, estamos indo para cobrir HDFS Disk Balancer em detalhe. Primeiro de tudo vamos discutir o que é Disk Balancer em Hadoop, então vamos discutir várias operações de balanceador Hadoop Disk.
Também vamos discutir o Intra DataNode Disk Balancer em Hadoop e seu algorithum. Finalmente, neste tutorial, vamos cobrir o Características do Hadoop balanceador HDFS disco em detalhe.
Introdução ao HDFS Disk Balancer
balanceador HDFS Disk é uma ferramenta de linha de comando. Ele distribui dados de maneira uniforme em todos os discos de um DataNode. balanceador HDFS Disk é completamente diferente do Balancer, que cuida de databalancing todo o cluster.
Devido ao abaixo razões, HDFS nem sempre pode distribuir dados de maneira uniforme entre os discos:
- Um monte de escrita e exclusões
- substituição de disco
Isto leva a inclinação significativa dentro de um DataNode. Assim HDFS Balancer não pode lidar com isso, que se preocupa com o Inter, não-Intra, DN inclinação.
Assim, uma nova funcionalidade Intra-DataNode Balancing passou a existir para lidar com esta situação. Esta é invocado através do HDFS Disk Balancer CLI.
Disk Balancer trabalha contra um determinado DataNode e move blocos de um disco para outro.
Operação de Disco Balancer
Ao criar um plano (um conjunto de instruções) e executar esse plano na DataNode, balanceador de HDFS Disk funciona. Estes conjuntos de declarações descrevem a quantidade de dados deve mover-se entre dois discos.
Um plano tem muitas etapas de movimentação. Estes passos movimento tem um número de bytes para mover, disco de origem, e disco de destino. Um plano pode executar contra um DataNode operacional.
balanceador HDFS Disk não está habilitado por padrão;
Então, para permitir HDFS balanceador de disco dfs.disk.balancer.enabled é definido true em hdfs-site.xml .
HDFS Intra-DataNode DiskBalancer
Quando write usuário novo bloco no HDFS, por isso, usando o volume escolhendo DataNode política de escolher o disco para o bloco. Abaixo estão duas dessas políticas:
- Round-robin - Esta política distribui os novos blocos de maneira uniforme entre os discos disponíveis.
- espaço disponível - Esta política grava dados no disco que tenha mais espaço livre em porcentagem.
Por padrão HDFS DataNode utiliza a política de rodízio.
DataNode ainda criar volume desequilíbrio significativo devido ao apagamento de arquivos em massa e além no HDFS. É mesmo possível que o espaço disponível política de escolha de volume com base pode levar a menos eficiente do disco I / O.
Cada nova gravação irá para o novo disco vazio adicionado enquanto naquela época os outros discos foram ocioso. Assim, criando um gargalo no novo disco.
Para reduzir o problema de desequilíbrio de dados, a comunidade Apache Hadoop desenvolvido scripts de servidor offline. HDFS-1312 também introduziu um balanceador de disco online. Esta re-equilibra os volumes em um DataNode funcionando com base em vários indicadores.
Habilidades de HDFS Disk Balancer
1. relatório de propagação de dados
O usuário pode medir como espalhar dados por meio de métricas.
a) a densidade de dados de volume ou a densidade de dados intra-nó
Este métricas pode calcular a quantidade de dados estiver em um nó. Também diga o armazenamento ideal em cada volume é.
Fórmula para a computação, isto é Total de dados no nó que dividida pela capacidade total do disco desse nó.
armazenamento ideal =capacidade total
densidade de dados volume utilizado =% total de armazenamento ideal - dfsUsedRatio
- valor positivo - Isso indica indicam que o disco está sub-utilizado.
- Valor negativo - Isso indica que o disco está over-utilizado.
b) a densidade de dados do nó ou o nó entre a densidade de dados
Como agora temos calculada a densidade de dados volume. Assim, podemos facilmente comparar qual todos nós na necessidade centro de dados para equilibrar?
c) Relatórios
Agora, temos a densidade de dados de volume e densidade de dados nó. Então balanceador de disco pode equilibrar as 20 maiores nós do cluster que têm a distribuição de dados distorcidos.
2. dados do balanço entre o volume enquanto DataNode estão vivos
balanceador HDFS disco tem a capacidade de mover dados de um volume para outro.
Conclusão
Em conclusão, podemos dizer que Disk Balancer é a ferramenta que distribui dados em todos os discos de um DataNode. Ele funciona através da criação de um plano (conjunto de instruções) e executar esse plano na DataNode.
usos HDFS Disk Balancer Round-robin e Espaço disponível políticas para a escolha do disco para o bloco. Se você encontrar este blog útil, ou você tiver qualquer dúvida, por isso, por favor, compartilhe com a gente na seção de comentários. Teremos o maior prazer para resolvê-los.