SW Engineering/Hadoop

Hadoop 용어

SungWookKang 2015. 7. 22. 09:25
반응형

Hadoop 용어 

   

[하둡, Hadoop] 

대용량 데이터를 분산 처리 할 수 있는 자바 기반의 오픈소스 프레임워크. 아파치 재단의 최상위 프로젝트로 하둡 분산 파일 시스템과 맵리듀스를 구현한 것이다. 

   

[HDFS, Hadoop Distributed File System] 

대용량 파일을 분산된 서버에 저장하고 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템 

   

[네임노드, NameNode] 

HDFS의 모든 메타데이터를 관리하고 클라이언트가 HDFS에 저장된 파일에 접근할 수 있게 해준다. 

   

[파일 시스템 이미지, fsimage] 

HDFS의 네임스페이스(디렉터리명, 파일명, 상태정보)와 파일에 대한 블록 매핑 정보를 저장하는 파일 

   

[에디트로그, editlog] 

HDFS의 메타데이터에 대한 모든 변화를 기록하는 로그 파일 

   

[데이터노드, DataNode] 

HDFS에 데이터를 입력하면 데이터는 32MB의 블록으로 나누어져 여러 대의 데이터노드에 분산되어 저장. 

   

[보조네임노드, SecondaryNameNode] 

보조네임노드는 주기적으로 네임노드의 파일 시스템 이미지 파일을 갱신하는 역할을 수행 

   

[맵리듀스, MapReduce] 

맵리듀스 프로그래밍 모델은 과거부터 사용하던 알고리즘으로 맵(map)과 리듀스(reduce)라는 두 개의 메서드로 구성된 알고리즘. 맵리듀스 프레임워크는 이러한 알고리즘을 이용해 개발된 프레임워크이며 대규모 분산 컴퓨팅 혹은 단일 컴퓨팅 환경에서 대량의 데이터를 병렬로 분석할 수 있게 한다. 

   

[맵리듀스 잡, MapReduceJob] 

클라이언트가 하둡으로 실행을 요청하는 맵리듀스 프로그램은 잡(job)이라는 하나의 작업 단위로 관리 된다. 

   

[잡트래커, JobTracker] 

잡트래커는 하둡 클러스터에 등록된 전체 잡의 스케줄링을 관리하고 모니터링 한다. 

   

[태스크트래커, TaskTracker] 

태스크트래커는 사용자가 설정한 맵리듀스 프로그램을 실행하며, 하둡의 데이터노드에서 실행되는 데몬이다. 이때 map task, reduce task가 사용자가 설정한 map 과 reduce 프로그램이다. 

   

[입력 스플릿, Input Split] 

하나의 맵에서 처리해야 하는 입력 파일의 크기 

   

[매퍼, Mapper] 

맵리듀스 프로그래밍 모델에서 맵 메서드의 역할을 수행하는 클래스. 매퍼는 키와 값으로 구성된 입력 데이터를 전달받아 이 데이터를 가공하고 분류해서 새로운 데이터 목록을 생성 

   

[리듀서, Reducer] 

맵리듀스 프로그래밍 모델에서 리듀스 메서드의 역할을 수행하는 클래스. 리듀서는 맵 태스크의 출력 데이터를 입력 데이터로 전달받아 집계 연산을 수행 

   

[셔플, Shuffle] 

맵 태스크와 리듀스 태스크 사이의 데이터 전달과정 

   

[콤바이너, Combiner] 

콤바이너 클래스는 매퍼의 출력 데이터를 입력 데이터로 전달받아 연산을 수행. 이러한 연산을 통해 셔플할 데이터의 크기를 줄이는데 도움을 준다. 

   

[파티셔너, Partitioner] 

파티셔너는 맵 태스크의 출력 데이터가 어떤 리듀스 태스크로 전달될지를 결정 한다. 

   

[SSH, Secure Shell] 

SSH는 네트워크상의 다른 컴퓨터에 로그인하거나 원격 시스템에서 명령을 실행하고 다른 시스템으로 파일을 복사할 수 있게 해주는 응용프로토콜이나 응용프로그램 또는 그 프로토콜을 의미 

   

[너치, Nutch] 

루씬을 기반으로 하며 만든 오픈소스 검색 엔진. 자바로 만들어져 있지만 자료는 특정 언어와 관계없는 형식으로 저장. 

   

[루씬] 

자바로 제작된 텍스트 검색 엔진 라이브러리 

   

[HBase] 

분산 데이터베이스 

   

[Mahout] 

분산 환경에서 처리할 수 있는 기계 학습 알고리즘 

   

[데이터 마이닝, Data Mining] 

다량의 데이터 집합으로부터 유용한 데이터(정보)를 추출해 내는 기법 

   

   

[참고자료] 

시작하세요 하둡 프로그래밍 (위키북스) 

   

   

2013-10-19 / 강성욱 / http://sqlmvp.kr

반응형

'SW Engineering > Hadoop' 카테고리의 다른 글

HDFS 소개  (0) 2015.07.22
Hadoop Echosystem  (0) 2015.07.22
Hadoop?  (0) 2015.07.22
Linux (CentOS)방화벽 설정  (0) 2015.07.22
Hadoop 도전기 4탄 - SSH 및 HostName 설정  (0) 2015.07.22