hive 45

HiveServer2 와 Beeline

HiveServer2 와 Beeline · Version : Hadoop 3.0.0-cdh6.3.2, Hive HiveServer2(HS2)는 HiveServer1의 후속으로 클라이언트가 하이브에 대해 쿼리를 실행할 수 있게 해주는 서비스이며 아래와 같은 특징이 있다. · HS2는 다중 클라이언트 동시성 및 인증을 지원 · JDBC 및ODBC와 같은 공개 API 클라이언트를 지원 · Thrift 기반 하이브 서비스 (TCP 또는HTTP)와 웹 UI용 Jetty 웹 서버를 포함하는 복합 서비스로 실행되는 단일 프로세스 Beeline은 HiveServer2에 접속하여 Command shell을 수행할 수 있도록 도와주는 Client이며 SQLLine CLI를 기반으로하는 JDBC 클라이언트이기도 하다. Be..

Hive CLI

Hive CLI · Version : Hadoop 3.0.0-cdh6.3.2, Hive Hive CLI(Command Line Interface)는 하이브 쿼리를 실행하기 위한 명령 도구로, 쉘을 이용하여 사용자의 명령을 입력할 수 있다. 하이브 쿼리 실행시 다양한 옵션을 사용할 수 있으며, 대표적인 옵션은 아래와 같다. · -e : 커맨드라인으로 실행할 쿼리 · -f : 쿼리가 작성된 파일을 이용하여 실행할 경우 · --hiveconf : 하이브 설정값 입력 · --hivevar 쿼리에 사용할 변수 입력 hive --hiveconf mydb.data.name=queue --hivevar date=20190101 [하이브 쉘 입력] 하이브 CLI를 실행하고 쉘을 이용하여 사용한다. -- 커맨드에서 hiv..

Python으로 Hive 연결하기

Python으로 Hive 연결하기 · Version : Python 2.7.5, pip, Hive, CDH 6.3.0, Centos7 Hive는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱할때 가장 많이 사용되는 데이터 웨어하징 솔루션이다. RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공하여 SQL과 유사한 HiveQL쿼리를 사용하여 데이터를 조작할수 있다. · Hive Architecture : https://en.wikipedia.org/wiki/Apache_Hive 필자의 경우, 배치잡 성격의 데이터 처리나 하이브 쿼리 조회등의 자동화 작업을 대부분 파이썬 스크립트로 개발하고, 해당 파이썬을 Cron 으로 실행하는 방식으로 운영하고 있다. ..

Hive 테이블 생성

Hive 테이블 생성 · Version : Hive Apache Hive에서 테이블은 HDFS에 저장된 파일과 디렉터리 구조에 대한 메터 정보를 저장한다. Hive는 HiveQL이라는 SQL과 유사한 언어를 제공하며 아래와 같은 특징이 있다. · Hive에서 사용하는 테이블은 HDFS에 저장되며, HDFS는 한번 저장한 파일은 수정할 수 없기 때문에 UPDATE와 DELETE는 사용할 수 없다. · 데이터를 INSERT할때 빈 테이블에 입력하거나 입력된 데이터를 덮어쓰는 경우(INSERT OVERWRITE 구문 사용)에만 가능하다. · HiveQL은 FROM 절에만 서브쿼리를 사용할 수 있다. · HiveQL 뷰는 읽기 전용이다. · SELECT 문을 사용할때 HAVING절을 사용할 수 없다. · Sto..

Hive Architecture

Hive Architecture · Version : Hive Apache Hive는 데이터 쿼리 및 분석을 제공하기 위해 Apache Hadoop 위에 구축 된 데이터웨어 하우스 소프트웨어 프로젝트이다. Hive는 Hadoop과 통합되는 다양한 데이터베이스 및 파일 시스템에 저장된 데이터를 쿼리하기위한 SQL과 유사한 인터페이스를 제공한다. 분산 된 데이터에 대해 SQL 응용 프로그램 및 조회를 실행하려면 MapReduce Java API에서 기존 SQL 조회를 구현해야한다. Hive는Java API에서 쿼리를 구현할 필요없이 SQL과 유사한 쿼리 (HiveQL)를 기본 Java에 통합하는 데 필요한 SQL 추상화를 제공한다. 대부분의 데이터웨어 하우징 응용 프로그램은 SQL 기반 쿼리 언어와 함께 작..