Hadoop/빅데이터 파일럿 프로젝트

[Hadoop] 빅데이터 파일럿 프로젝트 _아키텍처 이해

dev_tina 2022. 9. 5. 17:30

< 빅데이터 파일럿 프로젝트  setup >  

  1. 파일럿 프로젝트 도메인 이해
  2. 빅데이터 파일럿 아키텍처 이해
    • 빅데이터 구현 기술
    • 빅데이터 소프트웨어 구성도(Hadoop Echo System)
    • 레이어별 구성
    • 하드웨어 아키텍쳐
  3. 빅데이터 파일럿 프로젝트용 PC 환경 구성
  4. 빅데이터 파일럿 프로젝트용 PC 서버 구성
  5. CM(Cloudera Manager) 설치
  6. 스마트카 로그 시뮬레이터 설치
  7. 파일럿 환경 구성

2. 빅데이터 아키텍처의 이해

빅데이터 구현 기술

  • 구축순서 : 수집 => 적재 => 처리/탐색 => 분석/응용
  • 처리/탐색 => 분석/응용는 필요시 반복 진행

빅데이터 소프웨어 구성도 (Hadoop Echo System)

레이어별 구성

[전처리 : 수집/적재] => [하둡(Hodoop)] => [후처리: 탐색/분석]

수집 레이어 => 적재 레이어

  • 로그등을 수집하기하 위해 플럼(Flume) 사용 :
    • 로우데이터 => 플럼 => 하둡
  • 실시간 처리를 위해 스톰(Strom) 사용
    • 로우데이터 => 플럼 => 카프카(버퍼링,트랜잭션 처리) => 스톰 => Hbase, 레디스

적재 레이어 => 처리/탐색 레이어

  • 적재대상 : 하둡, HBase, 레디스
  • 대용량 데이터 : 플럼 => 하둡
  • 실시간 데이터 : 분석 결과에 따라 Hbase, 레디스

처리/탐색 레이어 => 분석/응용 레이어

  • 하둡 데이터 => 하이브 => 정제/변형/분리/탐색 작업 수행
  • 데이터 => 정형데이터 => 데이터마트
  • 가공/분헉된 데이터 => 스쿱 => 외부(DBMS)
  • 데이터의 품질을 높이는 단계로 과정이 길고 복잡 => 우지의 워크플로우로 자동화

분석/응용 레이어 => 데이터 마이닝

  • 임팔라, 제플린으로 데이터 마트 빠른 분석
  • 머하웃으로 하둡 머신러닝(군집, 분류/예측)

TIP _ 빅데이터 기술 접근

  • 플랫폼 전문가 : 하둡 에코시스템 설치 및 구성
  • 수집/적재 전문가 : 대규모 데이터 연동 및 통합
  • 처리/탐색 전문가 : 데이터 모델 설계 및 처리
  • 분석/응용 전문가 : 도메인 분석 및 인사이트 도출

하드웨어 아키텍처

저사양

  • CPU 듀얼코어 이상
  • 메모리 8GB 이상(여유 7GB)
  • 디스크 60GB 이상

고사양

  • CPU i5 이상
  • 메모리 16GB 이상(여유 15GB)
  • 디스크 100GB 이상

권장

  • CPU i3 이상
  • 메모리 16GB 이상(여유 15GB)
  • SSD

구축환경

  • PC OS : Windows 7 or 10
  • 가상머신환경 : 오라클 버추얼박스 3대 가상 머신
  • CentOS 6.x + CM
  • 이클립스 + FTP Client(FileZilla) + SSH Client(Putty ,Poderosa, MobaXterm)
  • 크롬 브라우저

데이터마트

데이터 마트는 단일 기능 영역에 초점을 둔 데이터 리포지토리

 

데이터 마트 솔루션 | 테라다데이타

데이터 마트는 제한된 사용자 그룹에 서비스를 제공하는 데이터 웨어하우스 논리 모델의 하위 집합입니다. 테라데이타의 데이터 마트 솔루션에 대해 자세히 알아보세요.

kr.teradata.com

데이터 웨어하우스

데이터 웨어하우스는 공유 및 세부 데이터를 위한 디자인 패턴 및 아키텍처