'BigData' 태그의 글 목록

'BigData'에 해당되는 글 2건

2014.04.20 01. Introduction to Big Data (2) - Hadoop?
2014.04.11 01. Introduction to Big Data (1) - BigData

01. Introduction to Big Data (2) - Hadoop?

IT/Big Data 2014. 4. 20. 22:43

Hadoop 이란?

하둡에 대해서 알기 전에 역사를 아는 것도 매우 재미있습니다. 시간이 되시는 분들은 찾아보시길..

"아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)"
대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이다. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)과 맵리듀스를 구현한 것이다.

- WIKI, 위키백과 -/

하둡은 분산 저장소와 연산 기능을 모두 제공하는 플랫폼
하둡은 오픈소스 프로젝트 (∴라이선스 비용에 대한 부담 x)
아파치 하둡 프로젝트의 특징

안정적이고, 신뢰할 수 있다(reliable)
확장이 용이(scalable)
분산 컴퓨팅(distributed computing) 환경 지원

[ 하둡 분산 파일 시스템 (HDFS; Hadoop Distributed File System) ]

하둡은 저장을 위한 하둡 분산 파일 시스템(HDFS; Hadoop Distributed File System)으로 구성된 마스터-슬레이브 아키텍처와 연산을 위한 맵리듀스로 이뤄진다.

마스터 : 슬레이브 노드에서 실행 예약할 연산 작업을 관리하는 책임을 담당
HDFS 마스터 : 슬레이브 노드 사이의 저장 공간 파티셔닝과 데이터 저장 위치를 관리하는 책임을 담당

하둡의 저장 공간과 연산 능력은 하둡 클러스터에 호스트를 추가함에 따라 늘어나고, 수천 개의 호스트를 클러스터에 추가해 페타바이트 크기의 데이터까지 처리 할 수 있다.

HDFS는 하둡의 저장소 컴포넌트이다.

큰 블록 크기 밍 데이터 로컬리티(data locality)를 통한 최적화를 활용해 네트워크 입/출력을 줄인다.
확장성과 가용성 또한 HDFS의 핵심 특징이다.
HDFS는 설정된 횟수만큼 파일을 복제하고, 소프트웨어 및 하드웨어의 장애를 견뎌낼 수 있으며, 장애가 생긴 노드에서는 데이터 블록을 자동으로 재복제한다.
마스터노드는 데이터 노드를 갖지 않고, JobTracker를 갖는다.
슬레이브 노드 중 하나는 Secondary NameNode를 갖고, 슬레이브 노드들은 TaskTracker를 갖는다.

[ 하둡 에코시스템 ]

저작자표시

'IT > Big Data' 카테고리의 다른 글

02. Hadoop 2.2.0 install on Ubuntu Linux 12.04 (0)	2014.05.13
01. Introduction to Big Data (3) - MapReduce? (0)	2014.04.23
01. Introduction to Big Data (1) - BigData (0)	2014.04.11
[빅데이터] 스터디 일정 (0)	2014.03.09

Posted by 밍쫑

01. Introduction to Big Data (1) - BigData

IT/Big Data 2014. 4. 11. 15:49

Big Data의 소개

"BigData"

빅 데이터란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석 할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다.

- WIKI (http://ko.wikipedia.org/wiki/빅_데이터)

빅 데이터의 3대 요소(3V)

크기(Volume)
급격하게 데이터의 양이 증가하고 있는데, 이때문에 확장 가능한 방식으로 데이터를 저장하고 분석하는 분산 컴퓨팅 기법으로 접근해야 한다.
속도(Velocity)
- 실시간 처리 : 오늘날 디지털 데이터는 매우 빠른속도로 생성되기 때문에 데이터의 생산, 저장,유통, 수집, 분석이 실시간으로 처리돼야 한다.
- 장기적인 접근 : 수집된 대량의 데이터를 다양한 분석 기법(ex. 데이터 마이닝, 기계학습, 자연어 처리, 패턴 인식)과 표현 기술로 분석
다양성(Variety)
- 정형(Structured) 데이터 : 정형화된 데이터로, 고정된 필드에 저장되있는 일정한 형식을 갖추고 저장되는 데이터
온라인 주문할 때 이름, 주소 등을 입력한 후 주문을 하면 DB에 미리 생성돼 있는 테이블(고정된 필드)에 저장된다.
- 반정형(Semi-Structured) : 고정된 필드로 저장돼 있지는 않지만, XML이나 HTML 같이 메타데이터나 스키마 등을 포함하는 데이터
- 비정형(Unstructed) : 고정된 필드에 저장돼 잇지 않은 데이터
ex. 블로그에서 저장하는 사진, 메신저로 주고받은 대화 내용 등

저작자표시

'IT > Big Data' 카테고리의 다른 글

02. Hadoop 2.2.0 install on Ubuntu Linux 12.04 (0)	2014.05.13
01. Introduction to Big Data (3) - MapReduce? (0)	2014.04.23
01. Introduction to Big Data (2) - Hadoop? (0)	2014.04.20
[빅데이터] 스터디 일정 (0)	2014.03.09

Posted by 밍쫑

이전 1 다음

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

도전하라! 시작하라!

'BigData'에 해당되는 글 2건

01. Introduction to Big Data (2) - Hadoop?

'IT > Big Data' 카테고리의 다른 글

01. Introduction to Big Data (1) - BigData

'IT > Big Data' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바