HUE에서 10만행이상 브라우저에 출력하기
· Version : Hadoop 3.0.0-cdh6.3.2, Hive, HUE
HUE(haddop User Experience)는 Apache Hadoop 클러스터와 함께 사용되는 에코시스템으로 Hive나 Impala, Spark Job등을 쉽게 질의할 수 있는 웹 기반 사용자 인터페이스이다.
필자의 HUE 사용환경은 CDH(Cloudera Hadoop) 6.3버전에서 제공되는 에코 시스템으로 설치하였으며, Hive와 Impala 데이터 조회에 주로 사용하고 있다.
데이터를 분석팀에서 하둡을 주로 사용하는데, HUE에서 데이터 조회시 10만행 이상의 결과는 브라우저에 출력이 되지 않아 데이터를 다운로드 받지 못하니 해결해 달라는 요청이 있었다. 브라우저에 데이터가 노출되지 않으니 당연히 브라우저에서 다운로드 받은 엑셀파일에서도 데이터가 존재하지 않았다.
이 문제를 해결하기 위해서 HUE 의 환경설정에서 아래오 같이 -1값으로 설정하여 출력결과를 무제한으로 표시할 수 있도록 하였다.
[beeswax] # A limit to the number of rows that can be downloaded from a query before it is truncated. # A value of -1 means there will be no limit. download_row_limit=-1 |
HUE 브라우저에서 대용량의 결과셋을 출력한다는 것은 시스템 성능에 문제를 발생시킬 수 있으므로 권장하지 않는다. 대용량 결과를 출력해야하는 경우, Hive나 Impala에서 직접 파일로 출력하여 사용하는것이 좋다.
INSERT OVERWRITE LOCAL DIRECTORY '/your_path' ROW FORMAT DELIMITED FIELDS TERMINATED BY ':' SELECT * FROM tablename; |
2020-02-18 / Sungwook Kang / http://sungwookkang.com
Hadoop, Big Data, 하둡, 빅데이터, 데이터분석, Hive, Hive 쿼리, Hive Query, 하이브 쿼리, HUE 사용, HUE 데이터, HUE 대용량 결과, HUE download_row_limit
'SW Engineering > Hadoop' 카테고리의 다른 글
ZooKeeper 시간 동기화와 네임스페이스 z노드 (0) | 2020.05.07 |
---|---|
Zookeeper 소개 (0) | 2020.05.06 |
Hive 쿼리 - not like (0) | 2020.02.13 |
Hive 파일 압축 (0) | 2020.02.07 |
Hive 파일 Merge (0) | 2020.02.04 |