전체 글 1383

HDFS 소개

HDFS 소개 HDFS(Hadoop Distributed File System)는 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템이다. HDFS는 내결함성이 우수하고 저가의 하드웨어에 배포 할 수 있도록 설계되어 있다. 또한 POSIX 요구사항을 수용하여 파일 시스템 데이터에 스트리밍 액세스 할 수 있다. HDFS에 저장된 데이터는 물리적으로 분산되어 있지만(서로 다른 여러 대의 서버에 저장되어 있음) 분산된 서버의 로컬 디스크에서 파일의 읽기, 저장과 같은 제어는 HDFS에서 제공하는 API를 이용해 처리된다. HDFS는 다음과 같은 목표로 설계 되었다.  Hardware Failure (하드웨어..

Hadoop Echosystem

Hadoop Echosystem 하둡은 다양한 서브 프로젝트가 개발되면서 하둡 에코시스템(하둡 생태계)이 구성되었다. 분산 데이터를 저장하는 HDFS와 분석 데이터를 처리하는 맵리듀스가 하둡의 메인(코어) 프로젝트에 해당하며 나머지 프로젝트는 하둡의 서브 프로젝트로 관리 및 수집 등의 기능을 한다. (출처 : 시작하세요 하둡 프로그래밍 / 위키북스 http://blrunner.com/?page=13) [Zookeeper] 분산 환경에서 서버간의 상호 조정이 필요한 다양한 서비스 제공. 로드 밸런스, 동기화, HA 등 분산환경을 구성하는 서버들의 환경설정을 통합적으로 관리 [Oozie] 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템. 자바 서블릿 컨테이너에서 실행되는 자바 웹 어플리케이션이며 맵리듀..

Hadoop 용어

Hadoop 용어 [하둡, Hadoop] 대용량 데이터를 분산 처리 할 수 있는 자바 기반의 오픈소스 프레임워크. 아파치 재단의 최상위 프로젝트로 하둡 분산 파일 시스템과 맵리듀스를 구현한 것이다. [HDFS, Hadoop Distributed File System] 대용량 파일을 분산된 서버에 저장하고 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템 [네임노드, NameNode] HDFS의 모든 메타데이터를 관리하고 클라이언트가 HDFS에 저장된 파일에 접근할 수 있게 해준다. [파일 시스템 이미지, fsimage] HDFS의 네임스페이스(디렉터리명, 파일명, 상태정보)와 파일에 대한 블록 매핑 정보를 저장하는 파일 [에디트로그, editlog] HDFS의 메타데이터에 대한..

Hadoop?

Hadoop? 하둡(Hadoop, High-Availability Distributed Object-Oriented Platform)은 대량의 자료를 처리할 수 있는 클러스터 컴퓨터 환경에서 동작하는 분산 응용 프로그램을 지원하는 프레임워크 이다. Google, Yahoo, Facebook, eBay, LinkedIn인 등 주요 회사들이 하둡을 사용한다. 또한 IBM, Microsoft, Cloudera, ORACLE 등 많은 기업이 자사의 제품에 하둡을 포함하고 있다. 하둡의 특징 중 하나는 메모리나 디스크를 공유하지 않는 다수의 머신에서 실행 할 수 있다는 것이다. 작은 조각으로 데이터를 나누어 그 조각을 배포하고 처리하며 원하는 대상 플랫폼에서 자동을 결과를 병합한다. 분산 파일 처리 시스템인 HD..

Linux (CentOS)방화벽 설정

Linux (CentOS)방화벽 설정 하둡을 이용하기 위해서는 하둡 클러스터간 내부 통신을 수행해 한다. 이때 하둡에서 사용하는 방화벽 포트가 막혀 있으면 방화벽 정책에 추가하여 허용을 해야 한다. Linux(CentOS )에서 방화벽 설정 하는 법. [ UI 사용법] [시스템] - [보안 수준 미및 방화벽] 클릭. [보안 수준 설정] 창이 나타나면 방화벽을 활성 또는 비활성화 선택 할 수 있다. 활성 상태에서는 필요한 포트만 접근 허용을 선택 할 수 있다. [ 스크립트 사용법] 터미널에서 방화벽을 사용 또는 중지 할 수 있다. service iptables stop : 방화벽 비활성 service iptables start : 방화벽 활성 service iptables restart : 방화벽 재시작 ..

Hadoop 도전기 4탄 - SSH 및 HostName 설정

Hadoop 도전기 4탄 - SSH 및 HostName 설정 하둡은 SSH 프로토콜을 이용하여 하둡 클러스터간 내부 통신을 한다. 네임 노드에서 SSH의 공개키를 설정하고 이 공개키를 하둡을 사용하는 전체 서버에 복사해서 사용 한다. 우선 네임 노드를 설치할 하둡 계정으로 로그인을 한다.(필자는 계속해서 root 계정 사용) 그리고 다음과 같이 명령어를 입력하여 키를 생성한다. ssh -Keygen -t rsa 그리고 공개키를 저장할 경로 및 입력 값등을 요구하는데 그냥 엔터를 눌러 진행 한다. 아래 그림은 키 생성이 완료 된 화면이다. 키 생성이 완료 되면 사용자 계정의 홈 디렉토리에 .ssh라는 폴더에 생성된다. .ssh 폴더에서 키를 확인 하는 방법은 아래 그림과 같이 숨겨진 파일 보기를 해야 확인..

Hadoop 도전기 3탄 - JAVA 다운로드 및 설치

Hadoop 도전기 3탄 - JAVA 다운로드 및 설치 이번에는 JAVA 설치를 진행 한다. 참고로 테스트 중인 계정은 root로 진행 하였다. 대부분의 책 및 자료에서는 만약의 사태에 대비하여 새로운 계정을 생성하여 사용하라고 권고 하고 있지만 리눅스를 잘 다루지 못하는 필자로써는 권한 및 사용법의 어려움으로 인하여 그냥 root로 진행 한다. (엉키면 처음부터 새로 설치 하지 뭐~ 라는 마인드로 ^^ VM 환경이라 항시 백업 이미지가 존재한다능 거 ^^) 하둡은 반드시 자바가 설치 되어 있어야 한다. 하둡은 자바로 개발 되었고 데모을 구동할때 JAR 파일을 수정하기 때문이다. JAVE는 다음 링크에서 다운 받을 수 있다. 다운로드 : http://www.oracle.com/technetwork/jav..

Hadoop 도전기 2탄 - 하둡 다운로드 및 설치하기

Hadoop 도전기 2탄 - 하둡 다운로드 및 설치하기 지난 시간에는 하둡을 서비스 하기 위한 OS 설치에 대해서 알아 보았다. 이번 시간에는 하둡 소프트웨어를 다운 받고 설치하는 방법에 대해서 알아 보자. 하둡 다운로드는 다음 사이트에서 받을 수 있다. 다운로드 : http://www.apache.org/dyn/closer.cgi/hadoop/common 다운로드 사이트에서 hadoop-1.0.4.tar.gz 를 다운받도록 하자. (다운로드 시점에서 버전은 바뀔 수 있다.) 십여년전 대학 시절 학교 수업시간에 잠깐 리눅스를 처음 써보고 처음 쓰는 것인데 UI가 상당히 많이 발전 했음을 느낄 수 있었다. 리눅스의 참맛은 VI를 통해서 느낄수 있다고 하는데 나는 리눅스에 대해서 전혀 모르므로 최대한 UI를..

Hadoop 도전기 1탄 - 리눅스(CentOS) 설치하기

Hadoop 도전기 1탄 - 리눅스(CentOS) 설치하기 최근들어 빅데이터 분석, 소셜 분석이라고 하여 하둡이나 NoSQL을 이용한 데이터 분석이 화두이다. 그래서 도대체 하둡이 어떤것이길래 연일 매체해서 다루는지 너무 궁금해서! 직접 하둡을 하나씩 배워보기로 했다. 물론 학습 방법은 인터넷과 책 등 다양한 자료를 토대로 나만의 방법을 통하여 하나씩 실습하고 정리해 보려고 한다. 하둡의 개발 및 운영 환경인 리눅스 + 하둡 + 자바 에는 전혀 문외한 이므로 포스팅에 많은 시간 및 어려움이 있을꺼라 예상되지만 완주를 목표로 연재를 시작해 보도록 한다. 하둡 환경 구성하기! OS를 설치 하자! 나의 환경은 윈도우의 호스트에 VMwaref를 이용하여 가상화 장비에 CentOS를 설치 하였다. 최대한 실무 환..

Amazon Elastic Block Store (Amazon EBS) 소개

Amazon Elastic Block Store (Amazon EBS) 소개 Amazon Elastic Block Store(EBS)는 Amazon EC2 인스턴스에 사용할 블록 레벨 스토리지 볼륨을 제공 한다. EBS 볼륨은 네트워크에 연결되며 EC2에 연결하여 인스턴스 내의 디바이스로 표시 할 수 있다. 특히 데이터베이스, 파일 시스템, 원시 블록 레벨 스토리지에 대한 액세스가 필요한 애플리케이션에 적합하다. [성능] EBS에서는 EC2 인스턴스에 디바이스로 마운트할 수 있는 스토리지 볼륨은 1GB ~ 1TB까지 생성할 수 있으며 여러 볼륨을 동일한 인스턴스에 마운트 할 수 있다. EBS에서 프로비저닝된 IOPS 볼륨을 선택하면 특정 수준의 I/O성능을 프로비저닝 할 수 있다. I/O 집중적인 워크로..