Hadoop 이란?
하둡에 대해서 알기 전에 역사를 아는 것도 매우 재미있습니다. 시간이 되시는 분들은 찾아보시길..
"아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)"
대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이다. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)과 맵리듀스를 구현한 것이다.
- WIKI, 위키백과 -/
- 하둡은 분산 저장소와 연산 기능을 모두 제공하는 플랫폼
- 하둡은 오픈소스 프로젝트 (∴라이선스 비용에 대한 부담 x)
- 아파치 하둡 프로젝트의 특징
- 안정적이고, 신뢰할 수 있다(reliable)
- 확장이 용이(scalable)
- 분산 컴퓨팅(distributed computing) 환경 지원
[ 하둡 분산 파일 시스템 (HDFS; Hadoop Distributed File System) ]
- 하둡은 저장을 위한 하둡 분산 파일 시스템(HDFS; Hadoop Distributed File System)으로 구성된 마스터-슬레이브 아키텍처와 연산을 위한 맵리듀스로 이뤄진다.
- 마스터 : 슬레이브 노드에서 실행 예약할 연산 작업을 관리하는 책임을 담당
- HDFS 마스터 : 슬레이브 노드 사이의 저장 공간 파티셔닝과 데이터 저장 위치를 관리하는 책임을 담당
- 하둡의 저장 공간과 연산 능력은 하둡 클러스터에 호스트를 추가함에 따라 늘어나고, 수천 개의 호스트를 클러스터에 추가해 페타바이트 크기의 데이터까지 처리 할 수 있다.
- 큰 블록 크기 밍 데이터 로컬리티(data locality)를 통한 최적화를 활용해 네트워크 입/출력을 줄인다.
- 확장성과 가용성 또한 HDFS의 핵심 특징이다.
- HDFS는 설정된 횟수만큼 파일을 복제하고, 소프트웨어 및 하드웨어의 장애를 견뎌낼 수 있으며, 장애가 생긴 노드에서는 데이터 블록을 자동으로 재복제한다.
- 마스터노드는 데이터 노드를 갖지 않고, JobTracker를 갖는다.
- 슬레이브 노드 중 하나는 Secondary NameNode를 갖고, 슬레이브 노드들은 TaskTracker를 갖는다.
[ 하둡 에코시스템 ]
'IT > Big Data' 카테고리의 다른 글
02. Hadoop 2.2.0 install on Ubuntu Linux 12.04 (0) | 2014.05.13 |
---|---|
01. Introduction to Big Data (3) - MapReduce? (0) | 2014.04.23 |
01. Introduction to Big Data (1) - BigData (0) | 2014.04.11 |
[빅데이터] 스터디 일정 (0) | 2014.03.09 |