Hive 파일 Merge
· Version : Hadoop 3.0.0-cdh6.3.2, Hive
하이브에서 매퍼 단독 작업의 경우 파일이 많이 생성될 수 있다. 작은 사이즈의 파일이 많이 생성되면 HDFS에 부담이 될수 있기 때문에 이럴 경우 파일을 Merge 하여 실행하는 것이 좋다. 아래 스크립터는 파일을 Merge 하는 설정이다.
-- 맵퍼 단독 작업일 때 머지 set hive.merge.mapfiles=true;
-- 맵리듀스 작업일 때 머지 set hive.merge.mapredfiles=true;
-- 테즈 작업일 때 머지 set hive.merge.tezfiles=true;
--테즈에서 실행하는지 확인 SET hive.execution.engine;
--테즈 엔진으로 설정 SET hive.execution.engine=tez;
-- 머지 작업의 대상이 되는 파일 사이즈(32MB이하) set hive.merge.smallfiles.avgsize=32000000;
-- 머지 파일을 묶을때 기준(256MB) set hive.merge.size.per.task=256000000; |
파일 Merge 할때, 너무 작은 크기의 파일을 대량으로 Merge할 경우 Merge 하는 시간이 오래 걸릴수 있으니 주의해서 사용해야 한다.
2020-02-03 / Sungwook Kang / http://sungwookkang.com
Hadoop, Big Data, 하둡, 빅데이터, 데이터분석, Hive, Hive 쿼리, Hive Query, 하이브 파일 머지, Hive File Merge
'SW Engineering > Hadoop' 카테고리의 다른 글
Hive 쿼리 - not like (0) | 2020.02.13 |
---|---|
Hive 파일 압축 (0) | 2020.02.07 |
Hive 통계 정보 (0) | 2020.01.29 |
Hive 쿼리 실행계획 보기 (0) | 2020.01.17 |
YARN Node Labels (노드 레이블) (0) | 2020.01.16 |