SW Engineering/Hadoop 98

Zookeeper 접근제한(Access Control List)

Zookeeper 접근제한(Access Control List) · Version : Zookeeper 주키퍼의 패스와 노드에 대한 권한 관리는 상속되지 않는다. 이 뜻은 부모 노드와 자식 노드가 있을때, 부모의 노드의 권한 속성이 자식 노드로 권한 상속이 발생하지 않다는 것이다. 그리고 아무런 설정을 하지 않으면 누구나 접근이 가능하다. 접근권한은 [schema:id, permission] 같은 형태로 설정한다. Schema는 인증방법을 정의하고, id는 인증을 허용할 값을 정의, permission에는 처리할 수 있는 기능을 정의한다. ex) 특정IP를 가진 클라이언트에 읽기(read) 권한 부여 : ip:192.168.0.1, READ · CREATE : 자식 노드를 생성할 수 있는 권한 · REA..

ZooKeeper Stat Structure

ZooKeeper Stat Structure · Version : Zookeeper 주키퍼(Zookeeper)의 z노드에는 몇 가지 속성이 있다. · Stat : z노드의 상태 정보를 저장 · Watcher : 세션의 상태가 변경 되었거나 관심 있는 노드의 상태변경(생성, 수정, 추가, 삭제)이 발생했을때 클라이언트가 이벤트를 받아 처리할 수 있게 하는 기능을 제공 · Atomic : z노드에 대한 데이터의 조회와 저장은 원자성을 가진다. · Persistent Node : “Persistent” 옵션으로 생성된 z노드는 주키퍼 서버의 로컬 디스크에 영구히 저장되고 클라이언트의 삭제 요청에 의해서만 삭제된다. 따라서 주키퍼 서버가 재시작 되어도 데이터는 보존된다. · Ephemeral Node : 임시노..

ZooKeeper 시간 동기화와 네임스페이스 z노드

ZooKeeper 시간 동기화와 네임스페이스 z노드 · Version : Zookeeper 주키퍼(Zookeeper)는 하나 이상의 서버에서 수행되기 때문에 클라이언트의 처리 요청에 따라 버전 정보나, 시간정보등에 대해서 모든 주키퍼 서버가 공유해야한다. 주피커는 아래와 같은 방법으로 시간이나 버전 정보를 관리한다. · Zxid (Zookeeper Transaction Id) : 주키퍼 노드의 상태를 변경하는 요청에 대해 부여되는 트랜잭션ID로, 모든 변경 요청에 대해서 순차적으로 부여된다. zxid가 낮을 수록 먼저 요청되었다는 것을 보장한다. · Version numbers : 노드의 데이터가 변경될때 마다 버전 값이 증가. 버전에는 z노드 데이터 변경, 자식 노드의 변경, AC 변경이 있으며 각각 ..

Zookeeper 소개

Zookeeper 소개 · Version : Zookeeper 주키퍼(Zookeeper)는 분산 코디네이터 서비스(Distributed Coordinator Service)를 제공하는 아파치 오픈소스이다. 분산 환경에서 락, 네이밍 서비스, 클러스터 멤버십 등을 쉽게 구현할 수 있는 기능을 제공한다. (주키퍼 자체적으로 기능을 제공하지 않으며, 기능을 쉽게 만들 수 있는 메커니즘을 제공) 주키퍼를 이용하는 대표적인 사례는 아래와 같다. · 네임 서비스, 환경설정, 그룹 멤버십 · Double Barriers · 우선순위 큐 (Priority Queues) · 공유 락 제어 · 두 단계 커밋 (Tow-phased commit) · 리더 선출 주키퍼는 n개의 서버와 클라이언트 API로 구성되어 있으며, 서버..

HUE에서 10만행이상 브라우저에 출력하기

HUE에서 10만행이상 브라우저에 출력하기 · Version : Hadoop 3.0.0-cdh6.3.2, Hive, HUE HUE(haddop User Experience)는 Apache Hadoop 클러스터와 함께 사용되는 에코시스템으로 Hive나 Impala, Spark Job등을 쉽게 질의할 수 있는 웹 기반 사용자 인터페이스이다. 필자의 HUE 사용환경은 CDH(Cloudera Hadoop) 6.3버전에서 제공되는 에코 시스템으로 설치하였으며, Hive와 Impala 데이터 조회에 주로 사용하고 있다. 데이터를 분석팀에서 하둡을 주로 사용하는데, HUE에서 데이터 조회시 10만행 이상의 결과는 브라우저에 출력이 되지 않아 데이터를 다운로드 받지 못하니 해결해 달라는 요청이 있었다. 브라우저에 데이..

Hive 쿼리 - not like

Hive 쿼리 - not like · Version : Hadoop 3.0.0-cdh6.3.2, Hive Hive 또는 SQL에서 데이터를 조회할때, 특정 문자열이 포함되지 않는 데이터를 조회할때, WHERE 조건자에 not like ‘%something %’ 구문을 사용한다. 하지만 Hive와 SQL 에서 사용하는 문법은 약간 다르다. 아래 예제를 참고한다. Query SQL select * from tableName where columnName not like '%something%'; Hive select * from tableName where not (columnName like '%something%'); 여러 조건을 적용하여 조회하는 경우 아래와 같은 쿼리를 사용할 수 있다. 아래 스크립트..

Hive 파일 압축

Hive 파일 압축 · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브를 이용하여 INSERT DIRECTORY, CTAS문으로 파일을 생성할때, 원하는 타입의 형태로 파일을 압축 할 수 있다. 하이브에서 사용할 수 있는 압축 코덱은 다양하다. · 4mc com.hadoop.compression.fourmc.FourMcCodec · gzip org.apache.hadoop.io.compress.GzipCodec · lzo com.hadoop.compression.lzo.LzopCodec · Snappy org.apache.hadoop.io.compress.SnappyCodec · bzip2 org.apache.hadoop.io.compress.BZip2Codec · lz4 or..

Hive 파일 Merge

Hive 파일 Merge · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브에서 매퍼 단독 작업의 경우 파일이 많이 생성될 수 있다. 작은 사이즈의 파일이 많이 생성되면 HDFS에 부담이 될수 있기 때문에 이럴 경우 파일을 Merge 하여 실행하는 것이 좋다. 아래 스크립터는 파일을 Merge 하는 설정이다. -- 맵퍼 단독 작업일 때 머지 set hive.merge.mapfiles=true; -- 맵리듀스 작업일 때 머지 set hive.merge.mapredfiles=true; -- 테즈 작업일 때 머지 set hive.merge.tezfiles=true; --테즈에서 실행하는지 확인 SET hive.execution.engine; --테즈 엔진으로 설정 SET hive.e..

Hive 통계 정보

Hive 통계 정보 · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브는 테이블의 로우 수 , 파일 개수, 사이즈 등의 통계 정보를 이용하여 데이터를 빠르게 처리한다. 통계정보는 CBO(Cost Base Optimize) 방식이며, 실행계획 최적화, 단순 카운트 쿼리 등에 사용된다. 하이브는 기본적으로 통계 정보를 자동 수집하도록 되어 있어 따로 설정하지 않아도 테이블의 메타정보에 통계정보를 수집한다. 하지만 사용하는 버전, 제조사에 따라 설정이 다를 수 있으니 반드시 재확인을 할 수 있도록 한다. 통계 정보를 설정하는 옵션은 아래와 같다. set hive.stats.autogather=true; set hive.stats.column.autogather=true; DML을 이..

Hive 쿼리 실행계획 보기

Hive 쿼리 실행계획 보기 · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브(Hive)에서 쿼리를 실행할때, 쿼리가 어떤 실행계획으로 결과를 추출했는지 확인하는 방법으로는 explain 또는 explain extended 명령을 사용할 수 있다. EXPLAIN [EXTENDED|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] query · EXTENDED : 추가 정보 확인 · AST : Abstract Syntax Tree 정보 확인 · DEPENDENCY : 테이블간 의존 정보 확인 · AUTHORIZATION : 테이블 조회 권한 정보 확인 · LOCKS : 테이블의 락 정보 확인 · VECTORIZATION : ..