반응형
Hive에서 샘플 데이터 추출
· Version : Hive
하이브에서 큰 데이터 테이블이 있을때, 일부 데이터 샘플을 추출하는 방법에 대해서 알아본다. 하이브는 테이블을 버킷으로 구성하여 샘플을 만드는 쿼리로 아래와 같은 방식으로 사용할 있으며, 예제 스크립트는 1에서 10까지 값을 가진 컬럼에서 난수를 발생시키는 rand() 함수를 사용하여 샘플 데이터를 추출한다.
select * from tbl TABLESAMPLE (BUCKET 3 OUT OF 10 ON rand()); |
BUCKET절에서 분모는 데이터가 해시될 수 있는 버킷 개수를 표현하며, 분자는 선택되는 버킷 숫자이다.
아래 스크립트는 PERCENT 함수를 사용하여 테이블 블록의 백분율로 샘플 데이터를 추출한다.
select * from tbl TABLESAMPLE (0.1 PERCENTS); |
2020-08-13 / Sungwook Kang / http://sungwookkang.com
Hadoop, Big Data, 하둡, 빅데이터, 데이터분석, HDFS, 하둡 파일 시스템, Hive, 하이브, 하이브쿼리, HiveSQL, TABLESAMPLE, 샘플데이터, 랜덤데이터추출
반응형
'SW Engineering > Hadoop' 카테고리의 다른 글
Hive 인덱스(index) (0) | 2020.08.28 |
---|---|
Hive View (0) | 2020.08.25 |
Hive ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY (0) | 2020.08.04 |
Hive Map-Side-Join, Bucket-Map-Join, Sort-Merge-Join (0) | 2020.07.29 |
Hive Left Semi Join (세미 조인) 과 Cartesian Product Join (카테시안 프로덕트 조인) (0) | 2020.07.28 |