SW Engineering 264

Hadoop 용어

Hadoop 용어 [하둡, Hadoop] 대용량 데이터를 분산 처리 할 수 있는 자바 기반의 오픈소스 프레임워크. 아파치 재단의 최상위 프로젝트로 하둡 분산 파일 시스템과 맵리듀스를 구현한 것이다. [HDFS, Hadoop Distributed File System] 대용량 파일을 분산된 서버에 저장하고 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템 [네임노드, NameNode] HDFS의 모든 메타데이터를 관리하고 클라이언트가 HDFS에 저장된 파일에 접근할 수 있게 해준다. [파일 시스템 이미지, fsimage] HDFS의 네임스페이스(디렉터리명, 파일명, 상태정보)와 파일에 대한 블록 매핑 정보를 저장하는 파일 [에디트로그, editlog] HDFS의 메타데이터에 대한..

Hadoop?

Hadoop? 하둡(Hadoop, High-Availability Distributed Object-Oriented Platform)은 대량의 자료를 처리할 수 있는 클러스터 컴퓨터 환경에서 동작하는 분산 응용 프로그램을 지원하는 프레임워크 이다. Google, Yahoo, Facebook, eBay, LinkedIn인 등 주요 회사들이 하둡을 사용한다. 또한 IBM, Microsoft, Cloudera, ORACLE 등 많은 기업이 자사의 제품에 하둡을 포함하고 있다. 하둡의 특징 중 하나는 메모리나 디스크를 공유하지 않는 다수의 머신에서 실행 할 수 있다는 것이다. 작은 조각으로 데이터를 나누어 그 조각을 배포하고 처리하며 원하는 대상 플랫폼에서 자동을 결과를 병합한다. 분산 파일 처리 시스템인 HD..

Linux (CentOS)방화벽 설정

Linux (CentOS)방화벽 설정 하둡을 이용하기 위해서는 하둡 클러스터간 내부 통신을 수행해 한다. 이때 하둡에서 사용하는 방화벽 포트가 막혀 있으면 방화벽 정책에 추가하여 허용을 해야 한다. Linux(CentOS )에서 방화벽 설정 하는 법. [ UI 사용법] [시스템] - [보안 수준 미및 방화벽] 클릭. [보안 수준 설정] 창이 나타나면 방화벽을 활성 또는 비활성화 선택 할 수 있다. 활성 상태에서는 필요한 포트만 접근 허용을 선택 할 수 있다. [ 스크립트 사용법] 터미널에서 방화벽을 사용 또는 중지 할 수 있다. service iptables stop : 방화벽 비활성 service iptables start : 방화벽 활성 service iptables restart : 방화벽 재시작 ..

Hadoop 도전기 4탄 - SSH 및 HostName 설정

Hadoop 도전기 4탄 - SSH 및 HostName 설정 하둡은 SSH 프로토콜을 이용하여 하둡 클러스터간 내부 통신을 한다. 네임 노드에서 SSH의 공개키를 설정하고 이 공개키를 하둡을 사용하는 전체 서버에 복사해서 사용 한다. 우선 네임 노드를 설치할 하둡 계정으로 로그인을 한다.(필자는 계속해서 root 계정 사용) 그리고 다음과 같이 명령어를 입력하여 키를 생성한다. ssh -Keygen -t rsa 그리고 공개키를 저장할 경로 및 입력 값등을 요구하는데 그냥 엔터를 눌러 진행 한다. 아래 그림은 키 생성이 완료 된 화면이다. 키 생성이 완료 되면 사용자 계정의 홈 디렉토리에 .ssh라는 폴더에 생성된다. .ssh 폴더에서 키를 확인 하는 방법은 아래 그림과 같이 숨겨진 파일 보기를 해야 확인..

Hadoop 도전기 3탄 - JAVA 다운로드 및 설치

Hadoop 도전기 3탄 - JAVA 다운로드 및 설치 이번에는 JAVA 설치를 진행 한다. 참고로 테스트 중인 계정은 root로 진행 하였다. 대부분의 책 및 자료에서는 만약의 사태에 대비하여 새로운 계정을 생성하여 사용하라고 권고 하고 있지만 리눅스를 잘 다루지 못하는 필자로써는 권한 및 사용법의 어려움으로 인하여 그냥 root로 진행 한다. (엉키면 처음부터 새로 설치 하지 뭐~ 라는 마인드로 ^^ VM 환경이라 항시 백업 이미지가 존재한다능 거 ^^) 하둡은 반드시 자바가 설치 되어 있어야 한다. 하둡은 자바로 개발 되었고 데모을 구동할때 JAR 파일을 수정하기 때문이다. JAVE는 다음 링크에서 다운 받을 수 있다. 다운로드 : http://www.oracle.com/technetwork/jav..

Hadoop 도전기 2탄 - 하둡 다운로드 및 설치하기

Hadoop 도전기 2탄 - 하둡 다운로드 및 설치하기 지난 시간에는 하둡을 서비스 하기 위한 OS 설치에 대해서 알아 보았다. 이번 시간에는 하둡 소프트웨어를 다운 받고 설치하는 방법에 대해서 알아 보자. 하둡 다운로드는 다음 사이트에서 받을 수 있다. 다운로드 : http://www.apache.org/dyn/closer.cgi/hadoop/common 다운로드 사이트에서 hadoop-1.0.4.tar.gz 를 다운받도록 하자. (다운로드 시점에서 버전은 바뀔 수 있다.) 십여년전 대학 시절 학교 수업시간에 잠깐 리눅스를 처음 써보고 처음 쓰는 것인데 UI가 상당히 많이 발전 했음을 느낄 수 있었다. 리눅스의 참맛은 VI를 통해서 느낄수 있다고 하는데 나는 리눅스에 대해서 전혀 모르므로 최대한 UI를..

Hadoop 도전기 1탄 - 리눅스(CentOS) 설치하기

Hadoop 도전기 1탄 - 리눅스(CentOS) 설치하기 최근들어 빅데이터 분석, 소셜 분석이라고 하여 하둡이나 NoSQL을 이용한 데이터 분석이 화두이다. 그래서 도대체 하둡이 어떤것이길래 연일 매체해서 다루는지 너무 궁금해서! 직접 하둡을 하나씩 배워보기로 했다. 물론 학습 방법은 인터넷과 책 등 다양한 자료를 토대로 나만의 방법을 통하여 하나씩 실습하고 정리해 보려고 한다. 하둡의 개발 및 운영 환경인 리눅스 + 하둡 + 자바 에는 전혀 문외한 이므로 포스팅에 많은 시간 및 어려움이 있을꺼라 예상되지만 완주를 목표로 연재를 시작해 보도록 한다. 하둡 환경 구성하기! OS를 설치 하자! 나의 환경은 윈도우의 호스트에 VMwaref를 이용하여 가상화 장비에 CentOS를 설치 하였다. 최대한 실무 환..

Amazon Elastic Block Store (Amazon EBS) 소개

Amazon Elastic Block Store (Amazon EBS) 소개 Amazon Elastic Block Store(EBS)는 Amazon EC2 인스턴스에 사용할 블록 레벨 스토리지 볼륨을 제공 한다. EBS 볼륨은 네트워크에 연결되며 EC2에 연결하여 인스턴스 내의 디바이스로 표시 할 수 있다. 특히 데이터베이스, 파일 시스템, 원시 블록 레벨 스토리지에 대한 액세스가 필요한 애플리케이션에 적합하다. [성능] EBS에서는 EC2 인스턴스에 디바이스로 마운트할 수 있는 스토리지 볼륨은 1GB ~ 1TB까지 생성할 수 있으며 여러 볼륨을 동일한 인스턴스에 마운트 할 수 있다. EBS에서 프로비저닝된 IOPS 볼륨을 선택하면 특정 수준의 I/O성능을 프로비저닝 할 수 있다. I/O 집중적인 워크로..

AmazonEC2 (Amazon Elastic Compute Cloud) 소개

AmazonEC2 (Amazon Elastic Compute Cloud) 소개 Amazon Elastic Compute Cloud는 클라우드에서 컴퓨팅 파워의 규모를 자유 자재로 변경 할 수 있는 서비스이다. 간단한 웹 서비스 인터페이스를 통해 간편하게 필요한 용량을 구성 할 수 있다. [장점] 스케일아웃 : 수 분 내에 용량을 늘리거나 줄일 수 있으며 수백 또는 수천 개의 서버 인스턴스를 동시에 지정 가능. 모든 과정이 웹 서비스 API로 제어되며 요구에 따라 스스로 자동 확장 및 축소 가능. 완전 제어 : 사용자가 인스턴스를 완전히 제어할 수 있는 권한을 보유 유연한 클라우드 호스팅 서비스 : 다양한 인스턴스 유형 및 소프트웨어 패키지 선택 가능. 다른 Amazon Web Services와 유연한 연..

Iaas, Paas, SaaS 개념

Iaas, Paas, SaaS 개념 클라우드 서비스에 사용되는 as a Service 개념에 대해서 알아 본다. [그림 : https://www.simple-talk.com/cloud/development/a-comprehensive-introduction-to-cloud-computing/] [IaaS (Infrastructure as a Service)] 기존에 제공되는 서버 기반의 호스팅이 클라우드로 제공되는 형태라고 생각 할 수 있다. 가상의 하드웨어상에 OS나 필요 애플리케이션을 설치하여 사용한다. 인프라(서버, 스토리지, 네트워크 등)를 서비스로 제공한다. l 장점 : OS, 애플리케이션 등을 사용자가 직접 설치 하기 때문에 원하는 형태로 사용이 가능하다. l 단점 : 클라우드 서비스가 하드웨..