SW Engineering/Hadoop

Hadoop?

SungWookKang 2015. 7. 22. 09:24
반응형

Hadoop? 

   

하둡(Hadoop, High-Availability Distributed Object-Oriented Platform)은 대량의 자료를 처리할 수 있는 클러스터 컴퓨터 환경에서 동작하는 분산 응용 프로그램을 지원하는 프레임워크 이다. 

 

   

   

Google, Yahoo, Facebook, eBay, LinkedIn인 등 주요 회사들이 하둡을 사용한다. 또한 IBM, Microsoft, Cloudera, ORACLE 등 많은 기업이 자사의 제품에 하둡을 포함하고 있다.  

   

하둡의 특징 중 하나는 메모리나 디스크를 공유하지 않는 다수의 머신에서 실행 할 수 있다는 것이다. 작은 조각으로 데이터를 나누어 그 조각을 배포하고 처리하며 원하는 대상 플랫폼에서 자동을 결과를 병합한다. 

   

 

   

분산 파일 처리 시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고 분산 처리 시스템은 맵리듀스를 이용해 데이터를 처리한다. 

   

 

   

기존의 RDBMS는 데이터가 저장된 서버에서 데이터를 처리하는 방식이지만 하둡은 여러 대의 서버에 데이터를 저장하고 데이터가 저장된 각 서버에서 동시에 데이터를 처리하는 방식이다.  

   

[Hadoop 역사] 

하둡은 2005년 더그 커팅과 마이크 캐퍼렐라가 개발 하였다. 하둡은 구글의 분산 파일 시스템(GFS, Google File System) 논문이 공개 된 후 그 구조에 맵리듀스(MapReduce)를 대응하는 체계로 개발 되었다. 하둡은 아파치 재단으로 넘어가 공개 소프트웨어로 개발되고 있다. 

   

하둡의 로고인 노란 코끼리는 더그 커팅이 자신의 아이가 가지고 놀던 장난감 코끼리의 이름을 따서 하둡이라고 이름을 지었다. 그 후 코끼리는 빅데이터(Big Data)를 상징하는 동물이 되었다. 

   

   

[Dell] 

 

   

[Cloudera] 

 

   

[Microsoft] 

 

   

   

[참고자료] 

http://www.iri.com/blog/big-data-2/what-is-hadoop/ 

http://strata.oreilly.com/2012/01/microsoft-big-data.html 

   

   

2013-10-18 / 강성욱 / http://sqlmvp.kr

 

반응형

'SW Engineering > Hadoop' 카테고리의 다른 글

Hadoop Echosystem  (0) 2015.07.22
Hadoop 용어  (0) 2015.07.22
Linux (CentOS)방화벽 설정  (0) 2015.07.22
Hadoop 도전기 4탄 - SSH 및 HostName 설정  (0) 2015.07.22
Hadoop 도전기 3탄 - JAVA 다운로드 및 설치  (0) 2015.07.22