Hadoop 용어

SW Engineering/Hadoop

Hadoop 용어

SungWookKang 2015. 7. 22. 09:25

Hadoop 용어

[하둡, Hadoop]

대용량 데이터를 분산 처리 할 수 있는 자바 기반의 오픈소스 프레임워크. 아파치 재단의 최상위 프로젝트로 하둡 분산 파일 시스템과 맵리듀스를 구현한 것이다.

[HDFS, Hadoop Distributed File System]

대용량 파일을 분산된 서버에 저장하고 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템

[네임노드, NameNode]

HDFS의 모든 메타데이터를 관리하고 클라이언트가 HDFS에 저장된 파일에 접근할 수 있게 해준다.

[파일 시스템 이미지, fsimage]

HDFS의 네임스페이스(디렉터리명, 파일명, 상태정보)와 파일에 대한 블록 매핑 정보를 저장하는 파일

[에디트로그, editlog]

HDFS의 메타데이터에 대한 모든 변화를 기록하는 로그 파일

[데이터노드, DataNode]

HDFS에 데이터를 입력하면 데이터는 32MB의 블록으로 나누어져 여러 대의 데이터노드에 분산되어 저장.

[보조네임노드, SecondaryNameNode]

보조네임노드는 주기적으로 네임노드의 파일 시스템 이미지 파일을 갱신하는 역할을 수행

[맵리듀스, MapReduce]

맵리듀스 프로그래밍 모델은 과거부터 사용하던 알고리즘으로 맵(map)과 리듀스(reduce)라는 두 개의 메서드로 구성된 알고리즘. 맵리듀스 프레임워크는 이러한 알고리즘을 이용해 개발된 프레임워크이며 대규모 분산 컴퓨팅 혹은 단일 컴퓨팅 환경에서 대량의 데이터를 병렬로 분석할 수 있게 한다.

[맵리듀스 잡, MapReduceJob]

클라이언트가 하둡으로 실행을 요청하는 맵리듀스 프로그램은 잡(job)이라는 하나의 작업 단위로 관리 된다.

[잡트래커, JobTracker]

잡트래커는 하둡 클러스터에 등록된 전체 잡의 스케줄링을 관리하고 모니터링 한다.

[태스크트래커, TaskTracker]

태스크트래커는 사용자가 설정한 맵리듀스 프로그램을 실행하며, 하둡의 데이터노드에서 실행되는 데몬이다. 이때 map task, reduce task가 사용자가 설정한 map 과 reduce 프로그램이다.

[입력 스플릿, Input Split]

하나의 맵에서 처리해야 하는 입력 파일의 크기

[매퍼, Mapper]

맵리듀스 프로그래밍 모델에서 맵 메서드의 역할을 수행하는 클래스. 매퍼는 키와 값으로 구성된 입력 데이터를 전달받아 이 데이터를 가공하고 분류해서 새로운 데이터 목록을 생성

[리듀서, Reducer]

맵리듀스 프로그래밍 모델에서 리듀스 메서드의 역할을 수행하는 클래스. 리듀서는 맵 태스크의 출력 데이터를 입력 데이터로 전달받아 집계 연산을 수행

[셔플, Shuffle]

맵 태스크와 리듀스 태스크 사이의 데이터 전달과정

[콤바이너, Combiner]

콤바이너 클래스는 매퍼의 출력 데이터를 입력 데이터로 전달받아 연산을 수행. 이러한 연산을 통해 셔플할 데이터의 크기를 줄이는데 도움을 준다.

[파티셔너, Partitioner]

파티셔너는 맵 태스크의 출력 데이터가 어떤 리듀스 태스크로 전달될지를 결정 한다.

[SSH, Secure Shell]

SSH는 네트워크상의 다른 컴퓨터에 로그인하거나 원격 시스템에서 명령을 실행하고 다른 시스템으로 파일을 복사할 수 있게 해주는 응용프로토콜이나 응용프로그램 또는 그 프로토콜을 의미

[너치, Nutch]

루씬을 기반으로 하며 만든 오픈소스 검색 엔진. 자바로 만들어져 있지만 자료는 특정 언어와 관계없는 형식으로 저장.

[루씬]

자바로 제작된 텍스트 검색 엔진 라이브러리

[HBase]

분산 데이터베이스

[Mahout]

분산 환경에서 처리할 수 있는 기계 학습 알고리즘

[데이터 마이닝, Data Mining]

다량의 데이터 집합으로부터 유용한 데이터(정보)를 추출해 내는 기법

[참고자료]

시작하세요 하둡 프로그래밍 (위키북스)

2013-10-19 / 강성욱 / http://sqlmvp.kr

'SW Engineering > Hadoop' 카테고리의 다른 글

HDFS 소개 (0)	2015.07.22
Hadoop Echosystem (0)	2015.07.22
Hadoop? (0)	2015.07.22
Linux (CentOS)방화벽 설정 (0)	2015.07.22
Hadoop 도전기 4탄 - SSH 및 HostName 설정 (0)	2015.07.22

현재글Hadoop 용어

Data Science Lab

Hadoop 용어

'SW Engineering > Hadoop' 카테고리의 다른 글

'SW Engineering/Hadoop'의 다른글

티스토리툴바

Hadoop 용어

'SW Engineering > Hadoop' 카테고리의 다른 글

'SW Engineering/Hadoop'의 다른글

관련글

티스토리툴바