Hive Query 6

Hive에서 하둡(dfs)명령 실행

Hive에서 하둡(dfs)명령 실행 · Version : Hive 하이브(Hive)에서 하둡(dfs) 명령을 수행할 수 있다. 하이브에서 하둡 명령어를 사용하는 방법은 dfs 를 사용하고 마지막에 세미콜론(;)을 입력한다. dfs -ls /; 하이브에서 dfs 명령을 사용하는것이 배시쉘에서 hadoop dfs 로 동일한 명령을 사용하는것보다 효율적이다. 하이브는 현재 프로세스에서 명령을 수행하는 반면, 배시쉘을 사용할때에는 새로운 jvm 인스턴스를 구동하여 명령을 실행하기 때문이다. 아래와 같이 -help 를 사용하면 dfs에서 제공하는 도움말을 볼 수 있다. 2020-05-18 / Sungwook Kang / http://sungwookkang.com Hadoop, Big Data, 하둡, 빅데이터, ..

Hive에서 쉘 명령 실행

Hive에서 쉘 명령 실행 · Version : Hive 하이브(Hive)에서 간단한 배시 쉘(bash shell) 명령을 수행할 수 있다. 더이상 쉘을 수행하기 위해서 하이브 CLI를 빠져나갈 필요가 없다. 하이브에서 쉘을 실행하는 방법은 ! 뒤에 쉘 명령어를 입력하고, 명령어 마지막에 세미콜론(;)을 입력한다. 아래 예시는 간단히 에코로 문자를 반환하는 것과, 현재 경로를 표시한다. ! /bin/echo “Hello”; ! pwd; 쉘 명령을 실행할때, 사용자 입력이 필요한 명령은 실행해서는 안된다. 쉘 파이프와 파일 글로빙(globbing)은 동작하지 않는다. 예를들어 ! ls *.hql 명령은 *.hql 이름을 가지는 하나의 파일만 찾아줄뿐, .hql 확장자를 가진 모든 파일을 찾아서 보여주지는 ..

HUE에서 10만행이상 브라우저에 출력하기

HUE에서 10만행이상 브라우저에 출력하기 · Version : Hadoop 3.0.0-cdh6.3.2, Hive, HUE HUE(haddop User Experience)는 Apache Hadoop 클러스터와 함께 사용되는 에코시스템으로 Hive나 Impala, Spark Job등을 쉽게 질의할 수 있는 웹 기반 사용자 인터페이스이다. 필자의 HUE 사용환경은 CDH(Cloudera Hadoop) 6.3버전에서 제공되는 에코 시스템으로 설치하였으며, Hive와 Impala 데이터 조회에 주로 사용하고 있다. 데이터를 분석팀에서 하둡을 주로 사용하는데, HUE에서 데이터 조회시 10만행 이상의 결과는 브라우저에 출력이 되지 않아 데이터를 다운로드 받지 못하니 해결해 달라는 요청이 있었다. 브라우저에 데이..

Hive 파일 압축

Hive 파일 압축 · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브를 이용하여 INSERT DIRECTORY, CTAS문으로 파일을 생성할때, 원하는 타입의 형태로 파일을 압축 할 수 있다. 하이브에서 사용할 수 있는 압축 코덱은 다양하다. · 4mc com.hadoop.compression.fourmc.FourMcCodec · gzip org.apache.hadoop.io.compress.GzipCodec · lzo com.hadoop.compression.lzo.LzopCodec · Snappy org.apache.hadoop.io.compress.SnappyCodec · bzip2 org.apache.hadoop.io.compress.BZip2Codec · lz4 or..

Hive 파일 Merge

Hive 파일 Merge · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브에서 매퍼 단독 작업의 경우 파일이 많이 생성될 수 있다. 작은 사이즈의 파일이 많이 생성되면 HDFS에 부담이 될수 있기 때문에 이럴 경우 파일을 Merge 하여 실행하는 것이 좋다. 아래 스크립터는 파일을 Merge 하는 설정이다. -- 맵퍼 단독 작업일 때 머지 set hive.merge.mapfiles=true; -- 맵리듀스 작업일 때 머지 set hive.merge.mapredfiles=true; -- 테즈 작업일 때 머지 set hive.merge.tezfiles=true; --테즈에서 실행하는지 확인 SET hive.execution.engine; --테즈 엔진으로 설정 SET hive.e..

Hive 통계 정보

Hive 통계 정보 · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브는 테이블의 로우 수 , 파일 개수, 사이즈 등의 통계 정보를 이용하여 데이터를 빠르게 처리한다. 통계정보는 CBO(Cost Base Optimize) 방식이며, 실행계획 최적화, 단순 카운트 쿼리 등에 사용된다. 하이브는 기본적으로 통계 정보를 자동 수집하도록 되어 있어 따로 설정하지 않아도 테이블의 메타정보에 통계정보를 수집한다. 하지만 사용하는 버전, 제조사에 따라 설정이 다를 수 있으니 반드시 재확인을 할 수 있도록 한다. 통계 정보를 설정하는 옵션은 아래와 같다. set hive.stats.autogather=true; set hive.stats.column.autogather=true; DML을 이..