Hadoop/빅데이터 파일럿 프로젝트
[Hadoop] 빅데이터 파일럿 프로젝트 _아키텍처 이해
dev_tina
2022. 9. 5. 17:30
< 빅데이터 파일럿 프로젝트 setup >
- 파일럿 프로젝트 도메인 이해
- 빅데이터 파일럿 아키텍처 이해
- 빅데이터 구현 기술
- 빅데이터 소프트웨어 구성도(Hadoop Echo System)
- 레이어별 구성
- 하드웨어 아키텍쳐
- 빅데이터 파일럿 프로젝트용 PC 환경 구성
- 빅데이터 파일럿 프로젝트용 PC 서버 구성
- CM(Cloudera Manager) 설치
- 스마트카 로그 시뮬레이터 설치
- 파일럿 환경 구성
2. 빅데이터 아키텍처의 이해
빅데이터 구현 기술
- 구축순서 : 수집 => 적재 => 처리/탐색 => 분석/응용
- 처리/탐색 => 분석/응용는 필요시 반복 진행
빅데이터 소프웨어 구성도 (Hadoop Echo System)
레이어별 구성
[전처리 : 수집/적재] => [하둡(Hodoop)] => [후처리: 탐색/분석]
수집 레이어 => 적재 레이어
- 로그등을 수집하기하 위해 플럼(Flume) 사용 :
- 로우데이터 => 플럼 => 하둡
- 실시간 처리를 위해 스톰(Strom) 사용
- 로우데이터 => 플럼 => 카프카(버퍼링,트랜잭션 처리) => 스톰 => Hbase, 레디스
적재 레이어 => 처리/탐색 레이어
- 적재대상 : 하둡, HBase, 레디스
- 대용량 데이터 : 플럼 => 하둡
- 실시간 데이터 : 분석 결과에 따라 Hbase, 레디스
처리/탐색 레이어 => 분석/응용 레이어
- 하둡 데이터 => 하이브 => 정제/변형/분리/탐색 작업 수행
- 데이터 => 정형데이터 => 데이터마트
- 가공/분헉된 데이터 => 스쿱 => 외부(DBMS)
- 데이터의 품질을 높이는 단계로 과정이 길고 복잡 => 우지의 워크플로우로 자동화
분석/응용 레이어 => 데이터 마이닝
- 임팔라, 제플린으로 데이터 마트 빠른 분석
- 머하웃으로 하둡 머신러닝(군집, 분류/예측)
TIP _ 빅데이터 기술 접근
- 플랫폼 전문가 : 하둡 에코시스템 설치 및 구성
- 수집/적재 전문가 : 대규모 데이터 연동 및 통합
- 처리/탐색 전문가 : 데이터 모델 설계 및 처리
- 분석/응용 전문가 : 도메인 분석 및 인사이트 도출
하드웨어 아키텍처
저사양
- CPU 듀얼코어 이상
- 메모리 8GB 이상(여유 7GB)
- 디스크 60GB 이상
고사양
- CPU i5 이상
- 메모리 16GB 이상(여유 15GB)
- 디스크 100GB 이상
권장
- CPU i3 이상
- 메모리 16GB 이상(여유 15GB)
- SSD
구축환경
- PC OS : Windows 7 or 10
- 가상머신환경 : 오라클 버추얼박스 3대 가상 머신
- CentOS 6.x + CM
- 이클립스 + FTP Client(FileZilla) + SSH Client(Putty ,Poderosa, MobaXterm)
- 크롬 브라우저
데이터마트
데이터 마트는 단일 기능 영역에 초점을 둔 데이터 리포지토리
데이터 마트 솔루션 | 테라다데이타
데이터 마트는 제한된 사용자 그룹에 서비스를 제공하는 데이터 웨어하우스 논리 모델의 하위 집합입니다. 테라데이타의 데이터 마트 솔루션에 대해 자세히 알아보세요.
kr.teradata.com
데이터 웨어하우스
데이터 웨어하우스는 공유 및 세부 데이터를 위한 디자인 패턴 및 아키텍처