맵리듀스 2

MapReduce 메모리 설정

MapReduce 메모리 설정 · Version : Hadoop 3.0.0-cdh6.3.2 맵리듀스의 각 메모리 항목에 대한 정의를 알아본다. 맵리듀스의 메모리 설정은 mapred-site.xml, yarn-site.xml 값을 변경하여 사용할 수 있다. [yarn-site.xml] · yarn.nodemanager.resource.memory-mb : 노드 매니저가 컨테이너 할당에 사용할 수 있는 메모리 사이즈 · yarn.scheduler.minimum-allocation-vcores : 컨테이너에 할당 할 수 있는 최소 Vcore 개수 · yarn-scheduler.maximum-allocation-vcore : 컨테이너에 할당 할 수 있는 최대 Vcore 개수 · yarn.scheduler.min..

MapReduce (맵리듀스)

MapReduce (맵리듀스) · Version : Hadoop 3.0.0-cdh6.3.2, 맵리듀스는 간단한 단위 작업을 반복하여 처리할때 사용하는 프로그래밍 모델이다. 간단한 작업을 처리하는 맵(Map) 작업과 맵 작업의 결과물을 모아서 집계하는 리듀스(Reduce) 단계로 구성된다. 하둡에서 분산처리를 담당하는 맵 리듀스 작업은 맵과 리듀스로 나누어져 처리된다. 맵리듀스 작업은 병렬로 처리가 가능하며 여러 컴퓨터에서 동시에 작업을 처리하여 속도를 높일 수 있다. 맵리듀스가 분산, 병렬처리하기 좋은 이유는 입력 데이터에 대한 맵 함수는 동시에 독립적으로 병영 처리할 수 있는 구조이기 때문이다. 아래는 맵리듀스 처리 순서이다. 1. 분할(Splitting) : 입력한 파일 값을 라인 단위로 분할한다. ..