Hive에서 샘플 데이터 추출 · Version : Hive 하이브에서 큰 데이터 테이블이 있을때, 일부 데이터 샘플을 추출하는 방법에 대해서 알아본다. 하이브는 테이블을 버킷으로 구성하여 샘플을 만드는 쿼리로 아래와 같은 방식으로 사용할 있으며, 예제 스크립트는 1에서 10까지 값을 가진 컬럼에서 난수를 발생시키는 rand() 함수를 사용하여 샘플 데이터를 추출한다. select * from tbl TABLESAMPLE (BUCKET 3 OUT OF 10 ON rand()); BUCKET절에서 분모는 데이터가 해시될 수 있는 버킷 개수를 표현하며, 분자는 선택되는 버킷 숫자이다. 아래 스크립트는 PERCENT 함수를 사용하여 테이블 블록의 백분율로 샘플 데이터를 추출한다. select * from tb..