'BigData'에 해당되는 글 2건

  1. 2014.04.20 01. Introduction to Big Data (2) - Hadoop?
  2. 2014.04.11 01. Introduction to Big Data (1) - BigData

              Hadoop 이란?              


하둡에 대해서 알기 전에 역사를 아는 것도 매우 재미있습니다. 시간이 되시는 분들은 찾아보시길..


"아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)"
 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이다. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)과 맵리듀스를 구현한 것이다.


- WIKI, 위키백과 -/

 


  • 하둡은 분산 저장소와 연산 기능을 모두 제공하는 플랫폼
  • 하둡은 오픈소스 프로젝트 (∴라이선스 비용에 대한 부담 x)
  • 아파치 하둡 프로젝트의 특징
    • 안정적이고, 신뢰할 수 있다(reliable)
    • 확장이 용이(scalable)
    • 분산 컴퓨팅(distributed computing) 환경 지원




[ 하둡 분산 파일 시스템 (HDFS; Hadoop Distributed File System) ]

  • 하둡은 저장을 위한 하둡 분산 파일 시스템(HDFS; Hadoop Distributed File System)으로 구성된 마스터-슬레이브 아키텍처와 연산을 위한 맵리듀스로 이뤄진다.
    • 마스터 : 슬레이브 노드에서 실행 예약할 연산 작업을 관리하는 책임을 담당
    • HDFS 마스터 : 슬레이브 노드 사이의 저장 공간 파티셔닝과 데이터 저장 위치를 관리하는 책임을 담당
  • 하둡의 저장 공간과 연산 능력은 하둡 클러스터에 호스트를 추가함에 따라 늘어나고, 수천 개의 호스트를 클러스터에 추가해 페타바이트 크기의 데이터까지 처리 할 수 있다.


HDFS는 하둡의 저장소 컴포넌트이다.
  1. 큰 블록 크기 밍 데이터 로컬리티(data locality)를 통한 최적화를 활용해 네트워크 입/출력을 줄인다.
  2. 확장성과 가용성 또한 HDFS의 핵심 특징이다.
  3. HDFS는 설정된 횟수만큼 파일을 복제하고, 소프트웨어 및 하드웨어의 장애를 견뎌낼 수 있으며, 장애가 생긴 노드에서는 데이터 블록을 자동으로 재복제한다.
  4. 마스터노드데이터 노드를 갖지 않고, JobTracker를 갖는다.
  5. 슬레이브 노드 중 하나 Secondary NameNode를 갖고, 슬레이브 노드들은 TaskTracker를 갖는다.








[ 하둡 에코시스템 ]



Posted by 밍쫑
,





Big Data의 소개 

 


"BigData"

빅 데이터란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석 할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다.


- WIKI (http://ko.wikipedia.org/wiki/빅_데이터)



빅 데이터의 3대 요소(3V)

  • 크기(Volume)
     급격하게 데이터의 양이 증가하고 있는데, 이때문에 확장 가능한 방식으로 데이터를 저장하고 분석하는 분산 컴퓨팅 기법으로 접근해야 한다.

  • 속도(Velocity)
    - 실시간 처리 : 오늘날 디지털 데이터는 매우 빠른속도로 생성되기 때문에 데이터의 생산, 저장,유통, 수집, 분석이 실시간으로 처리돼야 한다.
    - 장기적인 접근 : 수집된 대량의 데이터를 다양한 분석 기법
    (ex. 데이터 마이닝, 기계학습, 자연어 처리, 패턴 인식)과 표현 기술로 분석

  • 다양성(Variety)
    - 정형(Structured) 데이터 : 정형화된 데이터로, 고정된 필드에 저장되있는 일정한 형식을 갖추고 저장되는 데이터
        온라인 주문할 때 이름, 주소 등을 입력한 후 주문을 하면 DB에 미리 생성돼 있는 테이블(고정된 필드)에 저장된다.
    - 반정형(Semi-Structured) : 고정된 필드로 저장돼 있지는 않지만, XML이나 HTML 같이 메타데이터나 스키마 등을 포함하는 데이터
    - 비정형(Unstructed) : 고정된 필드에 저장돼 잇지 않은 데이터
        ex. 블로그에서 저장하는 사진, 메신저로 주고받은 대화 내용 등

Posted by 밍쫑
,