HDFS Cluster Balancing(데이터 블록 분포의 불균형 해소)
· Version : HDFS
HDFS 시스템은 여러대의 노드가 클러스터로 동작하기 때문에 시간이 지날수록 데이터 노드의 블록 분포에 대한 불균형이 발생할 수 있다. 불균형 상태의 클러스터는 맵리듀스의 로컬리티에 영향을 주기 때문에 자주 사용되는 데이터노드에 더 많은 부하를 주게 된다. 따라서 이러한 블록의 불균형 분포를 해결하기 위해 밸런서 작업으로 블록을 재분배 하여 전체적으로 블록을 고르게 유지할 수 있도록 다른 노드로 블록을 이동한다. 이때 데이터 유실을 방지하기 위해 데이터 블록 복제본의 배치전략은 유지된다. 밸런서를 실행하는 명령은 아래와 같다.
sudo -u hdfs hdfs balancer |
각 노드의 균형은 노드들의 이용률(노드에서 사용중인 공간 비율과 총 저장공간의 비율), 클러스터의 이용률(클러스터에서 사용중인 공간과 총 저장공간의 비율)을 비교하여 임계치 보다 적을때 까지 실행된다. 임계치는 기본 10% 이며 클러스터에는 오직 하나의 밸런서만이 실행될 수 있다. 임계치 변경은 아래 명령으로 변경할 수 있다.
sudo -u hdfs hdfs balancer -threshold 5 |
밸런서 작업중 노드 이동에 대한 기본 대역폭은 1MB/s 이지만 hdfs-site.xml에서 dfs.balance.bandwidthPerSec 속성에서 대역폭을 설정 할 수 있으며 단위는 byte이다. 아래 명령으로도 설정이 가능하다.
dfsadmin -setBalancerBandwidth newbandwidth |
[참고자료]
· How-to: Use the New HDFS Intra-DataNode Disk Balancer in Apache Hadoop : https://blog.cloudera.com/how-to-use-the-new-hdfs-intra-datanode-disk-balancer-in-apache-hadoop/
· HDFS Balancers : https://docs.cloudera.com/documentation/enterprise/5-12-x/topics/admin_hdfs_balancer.html
2020-09-25 / Sungwook Kang / http://sungwookkang.com
Hadoop, Big Data, 하둡, 빅데이터, 데이터분석, HDFS, 하둡 파일 시스템, 데이터 블록 불균형, 노드 밸런서, 하둡 밸런서, Hadoop Balancer, Cluster Balancing, 하둡 튜닝, 하둡 관리, HDFS 관리
'SW Engineering > Hadoop' 카테고리의 다른 글
Hive 자바 가상 머신 재사용 (0) | 2020.10.15 |
---|---|
Hive Mapper, Reduce 개수 최적화 (0) | 2020.09.30 |
Hive LIMIT 튜닝 (데이터 샘플링으로 빠르게 응답하기) (0) | 2020.09.23 |
HDFS 데이터노드 블록 스캐너 (손상된 블록을 검색하여 수정) (0) | 2020.09.23 |
Hive EXPLAIN (실행계획) 사용 (0) | 2020.09.22 |