MapReduce (맵리듀스) · Version : Hadoop 3.0.0-cdh6.3.2, 맵리듀스는 간단한 단위 작업을 반복하여 처리할때 사용하는 프로그래밍 모델이다. 간단한 작업을 처리하는 맵(Map) 작업과 맵 작업의 결과물을 모아서 집계하는 리듀스(Reduce) 단계로 구성된다. 하둡에서 분산처리를 담당하는 맵 리듀스 작업은 맵과 리듀스로 나누어져 처리된다. 맵리듀스 작업은 병렬로 처리가 가능하며 여러 컴퓨터에서 동시에 작업을 처리하여 속도를 높일 수 있다. 맵리듀스가 분산, 병렬처리하기 좋은 이유는 입력 데이터에 대한 맵 함수는 동시에 독립적으로 병영 처리할 수 있는 구조이기 때문이다. 아래는 맵리듀스 처리 순서이다. 1. 분할(Splitting) : 입력한 파일 값을 라인 단위로 분할한다. ..