SW Engineering/Hadoop

MapReduce JobTracker

SungWookKang 2019. 12. 31. 00:57
반응형

MapReduce JobTracker

 

·       Version : Hadoop 3.0.0-cdh6.3.2

 

하둡 V1 작업 단위는 (Job)이며, 하둡 V2 작업 단위는 애플리케이션(Application)이다. 잡은 (Mapper) 태스크와 리듀스(Reduce) 태크스로 나누어지며, 태스크는 어템프트(Attempt) 단위로 실행된다. 맵리듀스 Job들은 JobTracker라는 소프트웨어 데몬의 의해 제어된다. JobTracker들은 마스터 노드에 존재하면서 아래와 같은 역할을 수행한다.

·       클라이언트는 맵리듀스 잡을 JobTracker에게 보낸다.

·       JobTracker 클러스터의 다른 노드들에게 맵과 리듀스 태스크를 할당한다.

·       노드들은 TaskTracker라는 소프트웨어 데몬에 의해 각각 실행된다.

·       TaskTracker 실제로 또는 리듀스  태스크를 인스턴트화하고, 진행 상황을 Job Tracker에게 보고할 책임이 있다.

 

Task Attempt 태스크를 실행하기 위한 특정 인스턴스를 의미하는데, 적어도 하나 이상의 태스크가 존재하기 때문에 많은 Task attempt 있을것이다. 만약 Task attempt 실패하면, JobTracker에서 설정된 횟수만큼 Task attempt 실행한다.  반복후에도 오류가 발생하면 작업을 종료한다.

 

하둡 잡이 실행되면 아이디가 job_xxx_xxx 생성된다. 아이디로 잡의 상태, 로그를 확인할 있다. YARN에서는 application_xxx_xxx 확인할 있다. Job에서 생성되는 맵태스크의 아이디는 attempt_xxx_xxx_m_000000_00 이며,리듀스태스크의 아이디는 attempt_xxx_xxx_r_000000_00으로 생성된다.중간 아이디로   태스크(m) 리듀스 태스크(r) 구분한다.

 

 

 

2019-12-30 / Sungwook Kang / http://sungwookkang.com

 

Hadoop, MapReduce, JobTracker, 태스크, 리듀스 태스크, 잡트래커, JobTracker in Hadoop

반응형