Hive 쿼리 실행계획 보기

SW Engineering/Hadoop

Hive 쿼리 실행계획 보기

SungWookKang 2020. 1. 17. 01:00

Hive 쿼리 실행계획 보기

· Version : Hadoop 3.0.0-cdh6.3.2, Hive

하이브(Hive)에서 쿼리를 실행할때, 쿼리가 어떤 실행계획으로 결과를 추출했는지 확인하는 방법으로는 explain 또는 explain extended 명령을 사용할 수 있다.

· EXTENDED : 추가 정보 확인

· AST : Abstract Syntax Tree 정보 확인

· DEPENDENCY : 테이블간 의존 정보 확인

· AUTHORIZATION : 테이블 조회 권한 정보 확인

· LOCKS : 테이블의 락 정보 확인

· VECTORIZATION : 벡터화 처리 정보 확인

· ANALYZE : 실제 참조하는 row 정보 확인

실행하려는 쿼리 앞에 explain 또는 explain extended명령을 함께 실행한다.

explain select * from tbl;

explain extended select * from tbl;

실행계획에는 쿼리를 실행하는 스테이지 정보, 스테이지에서 처리되는 작업의 정보가 출력된다.

hive> explain

> select * from tbl_a where date = '20200114' and (url like '%XXXX%' and param like '%XXXX%')

> ;

STAGE DEPENDENCIES:

Stage-1 is a root stage

Stage-0 depends on stages: Stage-1

STAGE PLANS:

Stage: Stage-1

Map Reduce

Map Operator Tree:

TableScan

alias: tbl_a

Statistics: Num rows: 1343079 Data size: 694357252 Basic stats: COMPLETE Column stats: NONE

Filter Operator

predicate: ((url like '%XXXX%') and (param like '%XXXX%')) (type: boolean)

Statistics: Num rows: 335769 Data size: 173588925 Basic stats: COMPLETE Column stats: NONE

Select Operator

expressions: col_1 (type: string), col_2 (type: string), col_3 (type: string), col_4 (type: string), col_5 (type: string), col_6 (type: string), col_7 (type: string), col_8 (type: string), col_9 (type: string), col_10 (type: string), '20200114' (type: string)

outputColumnNames: _col0, _col1, _col2, _col3, _col4, _col5, _col6, _col7, _col8, _col9, _col10

Statistics: Num rows: 335769 Data size: 173588925 Basic stats: COMPLETE Column stats: NONE

File Output Operator

compressed: false

Statistics: Num rows: 335769 Data size: 173588925 Basic stats: COMPLETE Column stats: NONE

table:

input format: org.apache.hadoop.mapred.SequenceFileInputFormat

output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat

serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

Stage: Stage-0

Fetch Operator

limit: -1

Processor Tree:

ListSink

Time taken: 2.517 seconds, Fetched: 32 row(s)

hive>

2020-01-16 / Sungwook Kang / http://sungwookkang.com

Hadoop, Big Data, 하둡, 빅데이터, 데이터분석, Hive, 쿼리 실행계획, Hive 쿼리, Hive Query execution plan

저작자표시 비영리 변경금지 (새창열림)

'SW Engineering > Hadoop' 카테고리의 다른 글

Hive 파일 Merge (0)	2020.02.04
Hive 통계 정보 (0)	2020.01.29
YARN Node Labels (노드 레이블) (0)	2020.01.16
YARN 메모리 설정 (0)	2020.01.14
YARN 스케줄러 – Capacity 스케줄러 (0)	2020.01.10

현재글Hive 쿼리 실행계획 보기

Data Science Lab