하둡 57

Hive Architecture

Hive Architecture · Version : Hive Apache Hive는 데이터 쿼리 및 분석을 제공하기 위해 Apache Hadoop 위에 구축 된 데이터웨어 하우스 소프트웨어 프로젝트이다. Hive는 Hadoop과 통합되는 다양한 데이터베이스 및 파일 시스템에 저장된 데이터를 쿼리하기위한 SQL과 유사한 인터페이스를 제공한다. 분산 된 데이터에 대해 SQL 응용 프로그램 및 조회를 실행하려면 MapReduce Java API에서 기존 SQL 조회를 구현해야한다. Hive는Java API에서 쿼리를 구현할 필요없이 SQL과 유사한 쿼리 (HiveQL)를 기본 Java에 통합하는 데 필요한 SQL 추상화를 제공한다. 대부분의 데이터웨어 하우징 응용 프로그램은 SQL 기반 쿼리 언어와 함께 작..

HBase와 Zookeeper 상호작용 관계

HBase와 Zookeeper 상호작용 관계 · Version : HBASE, Zookeeper Hadoop 에코 시스템으로 HBase와 Zookeeper 시스템이 있다. HBase는 NoSQL의 분산 데이터베이스 시스템이며, Zookeeper는 분산 코디네이터 시스템으로 서버간의 상호 조정이 필요한 다양한 서비스를 제공한다. HBase는 마스터-슬레이브 구조를 가지고 있으며 마스터 역할을 하는 서버를 HMaster, 슬레이브 역할을 하는 서버를 HRegionServer라고 한다. 각 서버의 특징은 아래와 같이 정리할 수 있다. · HMaster는 HBase에 대한 설정파일들과 HRegionServer에 대한 정보만을 가지고 있는 서버이다. · HRegionServer는 HRegion이라 불리는 블록을 ..

NameNode and Secondary NameNode Heap Memory Size 변경

NameNode and Secondary NameNode Heap Memory Size 변경 · Version : CDH 6.3 NameNode를 Master and Slave로 구성하였을때, NameNode간의 힙메모리 설정이 다른 경우 경고가 발생한다. (서비스 장애가 발생하는 것은 아님) Cloudera Hadoop Manager에서는 아래와 같은 메뉴에서 Heap Memory Size를 설정할 수 있다. NameNode의 핵심은 HDFS 의 메타 데이터 (HDFS 블록 정보)를 관리하며, 파일 시스템 레이아웃은 디스크에 유지되며 블록 위치는 단독으로 메모리에 유지된다. 클라이언트가 파일을 조회하면 네임노드는 클라이언트에게 파일에 있는 모든 블록의 위치를 알려준다. 그리고 클라어인트는 데이터 전송을..

Hadoop Name Node

Hadoop Name Node · Version : HDFS 네임노드(Namenode)는 파일 시스템의 네임스페이스를 관리한다. 네임노드는 파일 시스템 트리와 그 트리에 포함된 모든 파일과 디렉터리에 대한 메타데이터를 유지한다. 이 정보는 네임스페이스 이미지(namespace image)와 에디트 로그(edit log)라는 두 종류의 파일로 로컬 디스크에 영속적으로 저장된다. 네임노드는 파일에 속한 모든 블록이 어느 데이터노드에 있는지 파악하고 있다. 하지만 블록의 위치 정보는 시스템이 시작할 때 모든 데이터노드로 부터 받아서 재구성하기 때문에 디스크에 영속적으로 저장하지는 않는다. 네임노드는 메타데이터를 관리하기 때문에 네임노드에 장애가 발생하면 파일 시스템은 동작하지 않으며 파일 시스템의 어떠한 파일..

HDFS 블록

HDFS 블록 · Version : HDFS HDFS 파일은 지정한 크기의 블록으로 나누어지고, 각 블록은 독립적으로 저장된다. HDFS 블록의 기본 사이즈는 128MB이며 수정이 가능하다. 블록이 큰 이유는 탐색 비용을 최소화 할 수 있기 때문인데, 블록이 크면 하드 디스크에서 블록의 시작점을 탐색하는데 걸리는 시간을 줄일 수 있고, 네트워크를 통해 데이터를 전송하는데 더 많은 시간을 할당할 수 있다. 여러개의 블록으로 구성된 대용량 파일을 전송하는 시간은 디스크 I/O 속도에 크게 영향을 받게 된다. 아래 그림은 64MB로 설정된 HDFS 블록에 160MB를 저장할때 블록 단위로 나누어져 저장된다. 블록 단위로 파일을 나누어 저장하면 파일 하나의 크기가 단일 디스크의 크기보다 크더라도 저장할 수 있다..

HDFS 파일 저장(로컬 업로드)

HDFS 파일 저장(로컬 업로드) · Version : CDH 6.3.0, Centos 7 로컬에 있는 파일을 HDFS에 저장하는 방법에 대해서 알아본다. 시스템에서 hadoop과의 통신은 hadoop라는 명령을 사용한다. 쉘에서 hadoop 라고 입력하면 도움말을 확인할 수 있다. hadoop HDFS의 디렉터리를 조회하는 명령은 hadoop fs -ls 이며 특정 경로을 입력하지 않으면 root의 디렉터리를 조회한다. 특정 디렉터리를 조회할 때에는 hadoop fs -ls /user 와 같이 디렉터리명을 사용한다. 디렉터리 구조는 호스트의 디렉터리 구조와는 연관성이 없다는 것을 명심한다. hadoop fs -ls hadoop fs -ls /user HDFS에서 디렉터리를 생성하는 명령은 fs -mkd..

Cloudera Hadoop 6.3.0 Install

Cloudera Hadoop 6.3.0 Install · Version : CDH 6.3.0, Centos 7 Cloudera Hadoop (CDH)를 사용하여 Hadoop 환경을 구성하는 방법에 대해서 알아본다. 이번 실습에서는 실제 운영환경과 유사한 환경을 구성하기 위하여 로컬 컴퓨터에 가상화 머신을 사용하여 Master Node 1, Data Node 4개의 Multi Node를 구성한다. 기본적인 가상화 환경 설정은 이번 포스트에서는 다루지 않는다. Node OS RAM DISK ETC HD-Master Centos 7 5GB 50GB Open JDK 1.8 HD-Node1 Centos 7 2GB 20GB Open JDK 1.8 HD-Node2 Centos 7 2GB 20GB Open JDK 1...