Data Science Lab

[Review] 2020-02-18 알고리즘 스터디 – 12 Week Challenge

[Review] 2020-02-18 알고리즘 스터디 – 12 Week Challenge SQL Angeles는 LA 한인 IT 커뮤니티 그룹으로 다양한 IT 기술을 공부하며 회원들의 소통을 공유 합니다. 현재 다양한 스터디를 운영하고 있으며 각종 공지를 위한 포럼, 그룹채팅을 운영하고 있습니다. 커뮤니티는 회원제로 운영되고 있으며 참여의 제한은 없습니다. 스터디 참여를 원하시거나 교류를 원하시는 분은 아래 홈페이지에서 상세 내용을 확인할 수 있습니다. · 문의메일 : Leo.Sungwook.Kang@gmail.com · KAKAO : SQLMVP · SQL Angeles 공식 홈페이지 : http://SQLAngeles.com · 공식 Facebook 그룹 : https://www.facebook.com..

Kang's Life 2020.02.19

HUE에서 10만행이상 브라우저에 출력하기

HUE에서 10만행이상 브라우저에 출력하기 · Version : Hadoop 3.0.0-cdh6.3.2, Hive, HUE HUE(haddop User Experience)는 Apache Hadoop 클러스터와 함께 사용되는 에코시스템으로 Hive나 Impala, Spark Job등을 쉽게 질의할 수 있는 웹 기반 사용자 인터페이스이다. 필자의 HUE 사용환경은 CDH(Cloudera Hadoop) 6.3버전에서 제공되는 에코 시스템으로 설치하였으며, Hive와 Impala 데이터 조회에 주로 사용하고 있다. 데이터를 분석팀에서 하둡을 주로 사용하는데, HUE에서 데이터 조회시 10만행 이상의 결과는 브라우저에 출력이 되지 않아 데이터를 다운로드 받지 못하니 해결해 달라는 요청이 있었다. 브라우저에 데이..

SW Engineering/Hadoop 2020.02.19

Death Valley (데스밸리 1박2일) – Sand dunes, Bad water, Zabriskie point

Death Valley (데스밸리 1박2일) – Sand dunes, Bad water, Zabriskie point - 2020년 2월 16일 2020년 2월 16일 월요일, “프레지던트 데이”로 공휴일이다. 그래서 연휴를 맞이해서 데스밸리(Death Valley)로 1박2일 투어를 다녀왔다. (정확히는 1일 투어이고 다음날은 집으로 이동만 했다.) 이 글을 쓰기전만 해도, 최대한 자세히 여행 후기를 쓰겠노라고 마음을 먹었으나, 막상 글을 쓰는 시점에서는 내 자신과의 싸움에서 이긴 당당한 나의 모습으로 처음 계획과는 완전히 다른 글이 쓰여질 것이라 생각된다. 우선 본격적인 여행 글을 쓰기에 앞서 “프레지던트데이”란 무엇인가? 인터넷 검색만 해봐도 쉽게 찾을 수 있으며 1줄 요약을 하면 ”역대 대통령을 ..

Kang's Life 2020.02.18

Hive 쿼리 - not like

Hive 쿼리 - not like · Version : Hadoop 3.0.0-cdh6.3.2, Hive Hive 또는 SQL에서 데이터를 조회할때, 특정 문자열이 포함되지 않는 데이터를 조회할때, WHERE 조건자에 not like ‘%something %’ 구문을 사용한다. 하지만 Hive와 SQL 에서 사용하는 문법은 약간 다르다. 아래 예제를 참고한다. Query SQL select * from tableName where columnName not like '%something%'; Hive select * from tableName where not (columnName like '%something%'); 여러 조건을 적용하여 조회하는 경우 아래와 같은 쿼리를 사용할 수 있다. 아래 스크립트..

SW Engineering/Hadoop 2020.02.13

SSRS 인디케이터 (데이터 값에 따라 표시기로 시각화 하기)

SSRS 인디케이터 (데이터 값에 따라 표시기로 시각화 하기) · Version : SSRS SSRS 인디케이터(Indicators)는 보고서에서 표시되는 단일 데이터 값의 상태를 시각화 할 수 있는 작은 표시기 이다. 인디케이터의 종류는 다양하며, 추세, 상태, 조건, 등급 등의 상태를 시각적으로 표현할 수 있다. 인디케이터를 사용하는 방법은 [Toolbox] – [Indicator] 항목을 리포트 페이지로 드래그앤 드롭으로 끌어다 놓으면 된다. 조건에 따라 인디케이터의 상태를 변화 값을 설정하기 위해서 인디케이터에서 마우스 오른쪽 버튼을 클릭하여 [Indicator Properties]를 선택한다. Indicator properties 창에서 [Value and States] 탭을 클릭하여 인디케이터..

SQL Server/SSRS 강좌 2020.02.12

SSRS에서 표의 값에 따라 폰트 컬러 변경하기

SSRS에서 표의 값에 따라 폰트 컬러 변경하기 · Version : SSRS SSRS에서 표의 폰트 색상을 정해진 룰에 따라 자동으로 색상을 변경하는 방법에 대해서 알아본다. 폰트의 컬러 속성을 지정하기 위해서, 값을 표시하려는 표의 컬럼에서 마우스 오른쪽 버튼을 클릭하여 [Text Box Property] 항목을 선택 한다. [Text Box Properties] 설정 창이 나타나면 [Font] 탭으로 이동하여 Color 항목의 펑션 버튼(fx)을 클릭한다. 펑션 창에서 아래와 같이 조건을 입력하면 해당 룰에 따라 폰트 컬러가 변경된다. =SWITCH(Fields!Pay.Value = 20, "Green") 폰트 컬러외에도 굵기, 이탤릭체 등 설정할 수 있으며, 표의 텍스트 배경색 변경도 가능하다. ..

SQL Server/SSRS 강좌 2020.02.11

Hive 파일 압축

Hive 파일 압축 · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브를 이용하여 INSERT DIRECTORY, CTAS문으로 파일을 생성할때, 원하는 타입의 형태로 파일을 압축 할 수 있다. 하이브에서 사용할 수 있는 압축 코덱은 다양하다. · 4mc com.hadoop.compression.fourmc.FourMcCodec · gzip org.apache.hadoop.io.compress.GzipCodec · lzo com.hadoop.compression.lzo.LzopCodec · Snappy org.apache.hadoop.io.compress.SnappyCodec · bzip2 org.apache.hadoop.io.compress.BZip2Codec · lz4 or..

SW Engineering/Hadoop 2020.02.07

Hive 파일 Merge

Hive 파일 Merge · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브에서 매퍼 단독 작업의 경우 파일이 많이 생성될 수 있다. 작은 사이즈의 파일이 많이 생성되면 HDFS에 부담이 될수 있기 때문에 이럴 경우 파일을 Merge 하여 실행하는 것이 좋다. 아래 스크립터는 파일을 Merge 하는 설정이다. -- 맵퍼 단독 작업일 때 머지 set hive.merge.mapfiles=true; -- 맵리듀스 작업일 때 머지 set hive.merge.mapredfiles=true; -- 테즈 작업일 때 머지 set hive.merge.tezfiles=true; --테즈에서 실행하는지 확인 SET hive.execution.engine; --테즈 엔진으로 설정 SET hive.e..

SW Engineering/Hadoop 2020.02.04

MySQL MMM 구성 (Centos7 + MySQL 8.0)

MySQL MMM 구성 (Centos7 + MySQL 8.0) · Version : MySQL 8.0.XX, Centos 7 MySQL MMM(MySQL Multi-Master) 을 구성하는 방법에 대해서 살펴본다. 이번 포스트에서는 MMM 구성에 대해서만 다루므로 MySQL 설치 및 Master-Slave 구성은 다른 글을 참고할 수 있도록 한다. MMM구성에 관한 글을 찾아보면 대부분 Centos6 기반의 환경에서 설치된 글을 많이 볼 수 있다. 필자의 경우 Centos7 환경에서 구성을 진행하였는데, Centos7 버전에서는 공식 가이드 문서에서 제공하는 코드와 조금 다르게 디렉터리 경로가 바뀐 부분이 있어 처음 설치시 오류가 발생하였다. 디렉터리 PATH에 대한 설정 값을 수정하고 정상 작동확인한..

MySQL, MariaDB 2020.02.01

Hive 통계 정보

Hive 통계 정보 · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브는 테이블의 로우 수 , 파일 개수, 사이즈 등의 통계 정보를 이용하여 데이터를 빠르게 처리한다. 통계정보는 CBO(Cost Base Optimize) 방식이며, 실행계획 최적화, 단순 카운트 쿼리 등에 사용된다. 하이브는 기본적으로 통계 정보를 자동 수집하도록 되어 있어 따로 설정하지 않아도 테이블의 메타정보에 통계정보를 수집한다. 하지만 사용하는 버전, 제조사에 따라 설정이 다를 수 있으니 반드시 재확인을 할 수 있도록 한다. 통계 정보를 설정하는 옵션은 아래와 같다. set hive.stats.autogather=true; set hive.stats.column.autogather=true; DML을 이..

SW Engineering/Hadoop 2020.01.29

Data Science Lab

전체 글 1386

티스토리툴바