전체 글 1383

Hive 쿼리 - not like

Hive 쿼리 - not like · Version : Hadoop 3.0.0-cdh6.3.2, Hive Hive 또는 SQL에서 데이터를 조회할때, 특정 문자열이 포함되지 않는 데이터를 조회할때, WHERE 조건자에 not like ‘%something %’ 구문을 사용한다. 하지만 Hive와 SQL 에서 사용하는 문법은 약간 다르다. 아래 예제를 참고한다. Query SQL select * from tableName where columnName not like '%something%'; Hive select * from tableName where not (columnName like '%something%'); 여러 조건을 적용하여 조회하는 경우 아래와 같은 쿼리를 사용할 수 있다. 아래 스크립트..

SSRS 인디케이터 (데이터 값에 따라 표시기로 시각화 하기)

SSRS 인디케이터 (데이터 값에 따라 표시기로 시각화 하기) · Version : SSRS SSRS 인디케이터(Indicators)는 보고서에서 표시되는 단일 데이터 값의 상태를 시각화 할 수 있는 작은 표시기 이다. 인디케이터의 종류는 다양하며, 추세, 상태, 조건, 등급 등의 상태를 시각적으로 표현할 수 있다. 인디케이터를 사용하는 방법은 [Toolbox] – [Indicator] 항목을 리포트 페이지로 드래그앤 드롭으로 끌어다 놓으면 된다. 조건에 따라 인디케이터의 상태를 변화 값을 설정하기 위해서 인디케이터에서 마우스 오른쪽 버튼을 클릭하여 [Indicator Properties]를 선택한다. Indicator properties 창에서 [Value and States] 탭을 클릭하여 인디케이터..

SSRS에서 표의 값에 따라 폰트 컬러 변경하기

SSRS에서 표의 값에 따라 폰트 컬러 변경하기 · Version : SSRS SSRS에서 표의 폰트 색상을 정해진 룰에 따라 자동으로 색상을 변경하는 방법에 대해서 알아본다. 폰트의 컬러 속성을 지정하기 위해서, 값을 표시하려는 표의 컬럼에서 마우스 오른쪽 버튼을 클릭하여 [Text Box Property] 항목을 선택 한다. [Text Box Properties] 설정 창이 나타나면 [Font] 탭으로 이동하여 Color 항목의 펑션 버튼(fx)을 클릭한다. 펑션 창에서 아래와 같이 조건을 입력하면 해당 룰에 따라 폰트 컬러가 변경된다. =SWITCH(Fields!Pay.Value = 20, "Green") 폰트 컬러외에도 굵기, 이탤릭체 등 설정할 수 있으며, 표의 텍스트 배경색 변경도 가능하다. ..

Hive 파일 압축

Hive 파일 압축 · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브를 이용하여 INSERT DIRECTORY, CTAS문으로 파일을 생성할때, 원하는 타입의 형태로 파일을 압축 할 수 있다. 하이브에서 사용할 수 있는 압축 코덱은 다양하다. · 4mc com.hadoop.compression.fourmc.FourMcCodec · gzip org.apache.hadoop.io.compress.GzipCodec · lzo com.hadoop.compression.lzo.LzopCodec · Snappy org.apache.hadoop.io.compress.SnappyCodec · bzip2 org.apache.hadoop.io.compress.BZip2Codec · lz4 or..

Hive 파일 Merge

Hive 파일 Merge · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브에서 매퍼 단독 작업의 경우 파일이 많이 생성될 수 있다. 작은 사이즈의 파일이 많이 생성되면 HDFS에 부담이 될수 있기 때문에 이럴 경우 파일을 Merge 하여 실행하는 것이 좋다. 아래 스크립터는 파일을 Merge 하는 설정이다. -- 맵퍼 단독 작업일 때 머지 set hive.merge.mapfiles=true; -- 맵리듀스 작업일 때 머지 set hive.merge.mapredfiles=true; -- 테즈 작업일 때 머지 set hive.merge.tezfiles=true; --테즈에서 실행하는지 확인 SET hive.execution.engine; --테즈 엔진으로 설정 SET hive.e..

MySQL MMM 구성 (Centos7 + MySQL 8.0)

MySQL MMM 구성 (Centos7 + MySQL 8.0) · Version : MySQL 8.0.XX, Centos 7 MySQL MMM(MySQL Multi-Master) 을 구성하는 방법에 대해서 살펴본다. 이번 포스트에서는 MMM 구성에 대해서만 다루므로 MySQL 설치 및 Master-Slave 구성은 다른 글을 참고할 수 있도록 한다. MMM구성에 관한 글을 찾아보면 대부분 Centos6 기반의 환경에서 설치된 글을 많이 볼 수 있다. 필자의 경우 Centos7 환경에서 구성을 진행하였는데, Centos7 버전에서는 공식 가이드 문서에서 제공하는 코드와 조금 다르게 디렉터리 경로가 바뀐 부분이 있어 처음 설치시 오류가 발생하였다. 디렉터리 PATH에 대한 설정 값을 수정하고 정상 작동확인한..

MySQL, MariaDB 2020.02.01

Hive 통계 정보

Hive 통계 정보 · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브는 테이블의 로우 수 , 파일 개수, 사이즈 등의 통계 정보를 이용하여 데이터를 빠르게 처리한다. 통계정보는 CBO(Cost Base Optimize) 방식이며, 실행계획 최적화, 단순 카운트 쿼리 등에 사용된다. 하이브는 기본적으로 통계 정보를 자동 수집하도록 되어 있어 따로 설정하지 않아도 테이블의 메타정보에 통계정보를 수집한다. 하지만 사용하는 버전, 제조사에 따라 설정이 다를 수 있으니 반드시 재확인을 할 수 있도록 한다. 통계 정보를 설정하는 옵션은 아래와 같다. set hive.stats.autogather=true; set hive.stats.column.autogather=true; DML을 이..

Hive 쿼리 실행계획 보기

Hive 쿼리 실행계획 보기 · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브(Hive)에서 쿼리를 실행할때, 쿼리가 어떤 실행계획으로 결과를 추출했는지 확인하는 방법으로는 explain 또는 explain extended 명령을 사용할 수 있다. EXPLAIN [EXTENDED|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] query · EXTENDED : 추가 정보 확인 · AST : Abstract Syntax Tree 정보 확인 · DEPENDENCY : 테이블간 의존 정보 확인 · AUTHORIZATION : 테이블 조회 권한 정보 확인 · LOCKS : 테이블의 락 정보 확인 · VECTORIZATION : ..

[Review] 2020-01-14 알고리즘 스터디 – 12 Week Challenge

[Review] 2020-01-14 알고리즘 스터디 – 12 Week Challenge SQL Angeles는 LA 한인 IT 커뮤니티 그룹으로 다양한 IT 기술을 공부하며 회원들의 소통을 공유 합니다. 현재 다양한 스터디를 운영하고 있으며 각종 공지를 위한 포럼, 그룹채팅을 운영하고 있습니다. 커뮤니티는 회원제로 운영되고 있으며 참여의 제한은 없습니다. 스터디 참여를 원하시거나 교류를 원하시는 분은 아래 홈페이지에서 상세 내용을 확인할 수 있습니다. · 문의메일 : Leo.Sungwook.Kang@gmail.com · KAKAO : SQLMVP · SQL Angeles 공식 홈페이지 : http://SQLAngeles.com · 공식 Facebook 그룹 : https://www.facebook.com..

Kang's Life 2020.01.16

YARN Node Labels (노드 레이블)

YARN Node Labels (노드 레이블) · Version : Hadoop 3.0.0-cdh6.3.2 YARN Labels는 서버를 특성에 맞게 구분하여 작업을 처리하게 하는 기능을 제공한다. 예를들어 클러스를 구축한 서버들의 하드웨어 사양이 다르다고 할때, IO 요청이 많은 작업은 SSD나 빠른 디스크를 가지고 있는 서버에서 작업하고, 연산이 많은 작업은 CPU 코어가 높거나, GPU 파워를 사용할 수 있는 서버에서 작업을 처리하면 더 효율적이다. 하지만 기존의 클러스터 방식은 이러한 특징에 따른 처리를 구분할 수 없이, 여유가 있는 서버에서 작업을 처리하기 때문에 YARN Node Labels를 사용하면 서버에 따라 작업을 구분할 수 있어 효율적이다. YARN Node Labels는 아래와 같은..