mapreduce 4

MapReduce 메모리 설정

MapReduce 메모리 설정 · Version : Hadoop 3.0.0-cdh6.3.2 맵리듀스의 각 메모리 항목에 대한 정의를 알아본다. 맵리듀스의 메모리 설정은 mapred-site.xml, yarn-site.xml 값을 변경하여 사용할 수 있다. [yarn-site.xml] · yarn.nodemanager.resource.memory-mb : 노드 매니저가 컨테이너 할당에 사용할 수 있는 메모리 사이즈 · yarn.scheduler.minimum-allocation-vcores : 컨테이너에 할당 할 수 있는 최소 Vcore 개수 · yarn-scheduler.maximum-allocation-vcore : 컨테이너에 할당 할 수 있는 최대 Vcore 개수 · yarn.scheduler.min..

MapReduce JobTracker

MapReduce JobTracker · Version : Hadoop 3.0.0-cdh6.3.2 하둡 V1의 작업 단위는 잡(Job)이며, 하둡 V2의 작업 단위는 애플리케이션(Application)이다. 잡은 맵(Mapper) 태스크와 리듀스(Reduce) 태크스로 나누어지며, 태스크는 어템프트(Attempt) 단위로 실행된다. 맵리듀스 Job들은 JobTracker라는 소프트웨어 데몬의 의해 제어된다. JobTracker들은 마스터 노드에 존재하면서 아래와 같은 역할을 수행한다. · 클라이언트는 맵리듀스 잡을 JobTracker에게 보낸다. · JobTracker는 클러스터의 다른 노드들에게 맵과 리듀스 태스크를 할당한다. · 이 노드들은 TaskTracker라는 소프트웨어 데몬에 의해 각각 실행된..

MapReduce (맵리듀스)

MapReduce (맵리듀스) · Version : Hadoop 3.0.0-cdh6.3.2, 맵리듀스는 간단한 단위 작업을 반복하여 처리할때 사용하는 프로그래밍 모델이다. 간단한 작업을 처리하는 맵(Map) 작업과 맵 작업의 결과물을 모아서 집계하는 리듀스(Reduce) 단계로 구성된다. 하둡에서 분산처리를 담당하는 맵 리듀스 작업은 맵과 리듀스로 나누어져 처리된다. 맵리듀스 작업은 병렬로 처리가 가능하며 여러 컴퓨터에서 동시에 작업을 처리하여 속도를 높일 수 있다. 맵리듀스가 분산, 병렬처리하기 좋은 이유는 입력 데이터에 대한 맵 함수는 동시에 독립적으로 병영 처리할 수 있는 구조이기 때문이다. 아래는 맵리듀스 처리 순서이다. 1. 분할(Splitting) : 입력한 파일 값을 라인 단위로 분할한다. ..

MapReduce 메모리 부족으로 인한 쿼리 실패

MapReduce 메모리 부족으로 인한 쿼리 실패 - FAILED Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask · Version : Hadoop 3.0.0-cdh6.3.2, Hive Hue에서 Hive 로 결과셋이 큰 쿼리를 실행하였을때 아래와 같은 오류가 발생하였다. Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask 위의 에러로그는 실제 에러로그가 아니기 때문에 문제를 해결하기 위해서는 실제 에러로그를 살펴보아야 한다. 필자의 경우 Ha..