Hadoop 용어
[하둡, Hadoop]
대용량 데이터를 분산 처리 할 수 있는 자바 기반의 오픈소스 프레임워크. 아파치 재단의 최상위 프로젝트로 하둡 분산 파일 시스템과 맵리듀스를 구현한 것이다.
[HDFS, Hadoop Distributed File System]
대용량 파일을 분산된 서버에 저장하고 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템
[네임노드, NameNode]
HDFS의 모든 메타데이터를 관리하고 클라이언트가 HDFS에 저장된 파일에 접근할 수 있게 해준다.
[파일 시스템 이미지, fsimage]
HDFS의 네임스페이스(디렉터리명, 파일명, 상태정보)와 파일에 대한 블록 매핑 정보를 저장하는 파일
[에디트로그, editlog]
HDFS의 메타데이터에 대한 모든 변화를 기록하는 로그 파일
[데이터노드, DataNode]
HDFS에 데이터를 입력하면 데이터는 32MB의 블록으로 나누어져 여러 대의 데이터노드에 분산되어 저장.
[보조네임노드, SecondaryNameNode]
보조네임노드는 주기적으로 네임노드의 파일 시스템 이미지 파일을 갱신하는 역할을 수행
[맵리듀스, MapReduce]
맵리듀스 프로그래밍 모델은 과거부터 사용하던 알고리즘으로 맵(map)과 리듀스(reduce)라는 두 개의 메서드로 구성된 알고리즘. 맵리듀스 프레임워크는 이러한 알고리즘을 이용해 개발된 프레임워크이며 대규모 분산 컴퓨팅 혹은 단일 컴퓨팅 환경에서 대량의 데이터를 병렬로 분석할 수 있게 한다.
[맵리듀스 잡, MapReduceJob]
클라이언트가 하둡으로 실행을 요청하는 맵리듀스 프로그램은 잡(job)이라는 하나의 작업 단위로 관리 된다.
[잡트래커, JobTracker]
잡트래커는 하둡 클러스터에 등록된 전체 잡의 스케줄링을 관리하고 모니터링 한다.
[태스크트래커, TaskTracker]
태스크트래커는 사용자가 설정한 맵리듀스 프로그램을 실행하며, 하둡의 데이터노드에서 실행되는 데몬이다. 이때 map task, reduce task가 사용자가 설정한 map 과 reduce 프로그램이다.
[입력 스플릿, Input Split]
하나의 맵에서 처리해야 하는 입력 파일의 크기
[매퍼, Mapper]
맵리듀스 프로그래밍 모델에서 맵 메서드의 역할을 수행하는 클래스. 매퍼는 키와 값으로 구성된 입력 데이터를 전달받아 이 데이터를 가공하고 분류해서 새로운 데이터 목록을 생성
[리듀서, Reducer]
맵리듀스 프로그래밍 모델에서 리듀스 메서드의 역할을 수행하는 클래스. 리듀서는 맵 태스크의 출력 데이터를 입력 데이터로 전달받아 집계 연산을 수행
[셔플, Shuffle]
맵 태스크와 리듀스 태스크 사이의 데이터 전달과정
[콤바이너, Combiner]
콤바이너 클래스는 매퍼의 출력 데이터를 입력 데이터로 전달받아 연산을 수행. 이러한 연산을 통해 셔플할 데이터의 크기를 줄이는데 도움을 준다.
[파티셔너, Partitioner]
파티셔너는 맵 태스크의 출력 데이터가 어떤 리듀스 태스크로 전달될지를 결정 한다.
[SSH, Secure Shell]
SSH는 네트워크상의 다른 컴퓨터에 로그인하거나 원격 시스템에서 명령을 실행하고 다른 시스템으로 파일을 복사할 수 있게 해주는 응용프로토콜이나 응용프로그램 또는 그 프로토콜을 의미
[너치, Nutch]
루씬을 기반으로 하며 만든 오픈소스 검색 엔진. 자바로 만들어져 있지만 자료는 특정 언어와 관계없는 형식으로 저장.
[루씬]
자바로 제작된 텍스트 검색 엔진 라이브러리
[HBase]
분산 데이터베이스
[Mahout]
분산 환경에서 처리할 수 있는 기계 학습 알고리즘
[데이터 마이닝, Data Mining]
다량의 데이터 집합으로부터 유용한 데이터(정보)를 추출해 내는 기법
[참고자료]
시작하세요 하둡 프로그래밍 (위키북스)
2013-10-19 / 강성욱 / http://sqlmvp.kr
'SW Engineering > Hadoop' 카테고리의 다른 글
HDFS 소개 (0) | 2015.07.22 |
---|---|
Hadoop Echosystem (0) | 2015.07.22 |
Hadoop? (0) | 2015.07.22 |
Linux (CentOS)방화벽 설정 (0) | 2015.07.22 |
Hadoop 도전기 4탄 - SSH 및 HostName 설정 (0) | 2015.07.22 |