Hive 파일 Merge

 

·       Version : Hadoop 3.0.0-cdh6.3.2, Hive

 

하이브에서 매퍼 단독 작업의 경우 파일이 많이 생성될 있다. 작은 사이즈의 파일이 많이 생성되면 HDFS 부담이 될수 있기 때문에 이럴 경우 파일을 Merge 하여 실행하는 것이 좋다. 아래 스크립터는 파일을 Merge 하는 설정이다.

-- 맵퍼 단독 작업일 머지

set hive.merge.mapfiles=true;

 

-- 맵리듀스 작업일 머지

set hive.merge.mapredfiles=true;

 

-- 테즈 작업일 머지

set hive.merge.tezfiles=true;

 

--테즈에서 실행하는지 확인

SET hive.execution.engine;

 

--테즈 엔진으로 설정

SET  hive.execution.engine=tez;

 

-- 머지 작업의 대상이 되는 파일 사이즈(32MB이하)

set hive.merge.smallfiles.avgsize=32000000;

 

-- 머지 파일을 묶을때 기준(256MB)

set hive.merge.size.per.task=256000000;

 

파일 Merge 할때, 너무 작은 크기의 파일을 대량으로 Merge 경우 Merge 하는 시간이 오래 걸릴수 있으니 주의해서 사용해야 한다.

 

 

2020-02-03 / Sungwook Kang / http://sungwookkang.com

 

Hadoop, Big Data, 하둡, 빅데이터, 데이터분석,  Hive, Hive 쿼리, Hive Query, 하이브 파일 머지, Hive File Merge

'SW Engineering > Hadoop' 카테고리의 다른 글

Hive 쿼리 - not like  (0) 2020.02.13
Hive 파일 압축  (0) 2020.02.07
Hive 파일 Merge  (0) 2020.02.04
Hive 통계 정보  (0) 2020.01.29
Hive 쿼리 실행계획 보기  (0) 2020.01.17
YARN Node Labels (노드 레이블)  (0) 2020.01.16

+ Recent posts