Python으로 Hive 연결하기
· Version : Python 2.7.5, pip, Hive, CDH 6.3.0, Centos7
Hive는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱할때 가장 많이 사용되는 데이터 웨어하징 솔루션이다. RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공하여 SQL과 유사한 HiveQL쿼리를 사용하여 데이터를 조작할수 있다.
· Hive Architecture : https://en.wikipedia.org/wiki/Apache_Hive
필자의 경우, 배치잡 성격의 데이터 처리나 하이브 쿼리 조회등의 자동화 작업을 대부분 파이썬 스크립트로 개발하고, 해당 파이썬을 Cron 으로 실행하는 방식으로 운영하고 있다. (물론 에코시스템중에 좋은 ETL 툴이 많지만, 관리 및 유지보수 차원에서 파이썬을 선택하였다.) 오픈소스 프로젝트로 작업을 진행하면서 자주 느끼는 부분인데, 오픈소스는 궁합이 매우 중요하다. 특히 파이썬의 경우 버전에 따라 지원되는 기능 및 패키지 모듈이 다르기 때문에 버전 문제로 인한 스트레스가 좀 있는 편이다. 이번 포스팅은 pyhive 패키지를 이용해서 파이썬에서 Hive로 커넥트할 수 있는 방법에 대해서 알아본다.
필자의 하둡 환경은 Cloudera Hadoop 6.3.0, Centos7, Python 2.7.5 환경이다. 첨부된 requirement.txt 를 사용하여, 필요한 pip 패키지를 설치한다. 해당 파일에는 hive 커텍트에 필요한 패키지 외에, 필자가 필요한 pip 패키지가 일부 포함되어 있다.
pip install -r /path/to/requirements.txt |
아래 내용은 설치되어 있는 pip 패키지 리스트이다.
backports.ssl-match-hostname==3.5.0.1 certifi==2019.9.11 chardet==3.0.4 configobj==4.7.2 decorator==3.4.0 docopt==0.6.2 future==0.18.2 futures==3.1.1 hdfs==2.5.8 hdfs3==0.3.1 idna==2.8 iniparse==0.4 ipaddress==1.0.16 IPy==0.75 javapackages==1.0.0 kitchen==1.1.1 langtable==0.0.31 LinkChecker==9.3 lxml==3.2.1 MySQL-python==1.2.5 numpy==1.16.5 pandas==0.24.2 perf==0.1 pexpect==4.7.0 policycoreutils-default-encoding==0.1 psycopg2==2.5.1 ptyprocess==0.6.0 pycurl==7.19.0 pygobject==3.22.0 pygpgme==0.3 PyHive==0.6.1 pyliblzma==0.5.3 pysasl==0.4.1 python-augeas==0.5.0 python-dateutil==2.8.1 python-linux-procfs==0.4.9 pytz==2019.3 pyudev==0.15 pyxattr==0.5.1 PyYAML==3.10 requests==2.22.0 sasl==0.2.1 schedutils==0.4 seobject==0.1 sepolicy==1.1 six==1.9.0 slip==0.4.0 slip.dbus==0.4.0 SSSDConfig==1.16.4 thrift==0.13.0 thrift-sasl==0.3.0 urlgrabber==3.10 urllib3==1.25.7 virtualenv==15.1.0 yum-langpacks==0.4.2 yum-metadata-parser==1.1.4 |
패키지 설치가 완료되었으면, 파이썬에서 필요한 패키지를 import 하여 Hive에 커넥트 한다. 아래 스크립트는 파이썬에서 hive에 연결하거 tbl이라는 테이블의 내용을 조회하는 예제이다.
from pyhive import hive
conn = hive.Connection(host='hd-master', port=10000, username='ID', password='PASSWORD', database='default', auth='CUSTOM') cur = conn.cursor() cur.execute('select 1 from tbl') result = cur.fetchall() |
2019-12-03 / Sungwook Kang / http://sungwookkang.com
Hadoop, hive, 파이썬으로 hive 연결하기, python connect to hive, hive connection, pyhive
'SW Engineering > Hadoop' 카테고리의 다른 글
HDFS에서 파일 삭제시 바로 삭제 될까? (휴지통 기능) (0) | 2019.12.06 |
---|---|
HDFS 고가용성 (High Availability) 개념 (0) | 2019.12.05 |
HDFS Federation (다중 네임노드를 사용한 네임스페이스 분리) (0) | 2019.12.03 |
Hive 테이블 생성 (0) | 2019.11.27 |
Hive Architecture (0) | 2019.11.26 |