분석 파일럿 실행 1단계 - 분석 아키텍처
분석 요구사항
요구사항 - 빅데이터 탐색을 통해 해결
- 요구사항 1 : 차량의 다양한 장치로부터 발생하는 로그 파일을 수집해서 기능별 상태 점검
- 요구사항 2: 운전자의 운행 정보가 담긴 로그를 실시간으로 수집해서 주행 패턴을 분석
요구사항 확장
- 빅데이터 실시간 탐색 및 시각화
- 머신러닝을 이용한 데이터 마이닝
요구사항 구체화 및 분석
스마트카 데이터셋을 좀 더 빠르게 탐색 및 분석
- 임팔라 이용 하이브 배치 쿼리를 온라인 쿼리로 실행
스마트카 데이터셋의 탐색 결과를 이해하기 쉽게 시각화
- 스파크 SQL로 탐색 후 결과를 제플린의 차트로 시각화
차량용품 구매 이력을 분석해 최적의 상품 추천 목록 만들기
- 머하웃의 추천 기능 이용, 성향에 따른 상품 추천 목록 생성
스마트카 상태 정보를 분석 이상 징후 예측
- 머하웃의 분류 감독 학습을 통해 이상 징후에 대한 예측 모델 구성
스마트카 운행 정보를 분석 운행 패턴별 군집을 도출
- 머하웃의 군집 비감독 학습을 통해 운행 패턴에 대한 군집을 도출
분석된 결과를 외부 업무 시스템의 RDBMS로 제공
- 스쿱의 데이터 익스포트 이용, HDFS => RDBMS
분석 아키텍처
- P315 그림7-12 파일럿 프로젝트 분석 아키텍처 참고
휴 - Impala Editor
- 임팔라 설치하면 휴 > Editor 메뉴에 Impala Editor 추가됨
- 하이브 배치쿼리를 임팔라의 실시간 쿼리로 빠른 분석 수행
- 스마트카 상태 정보 On-Line 조회
- 운전자 운행 정보 On-Line 조회
제플린 - NoteBook
- 웹 브라우저에 Spark-SQL로 데이터셋 분석
- 제플린에서 제공하는 다양한 차트로 시각화
머하웃 - 추천 라이브러리
- 추천 라이브러리에 "차량용품 구매 정보" 데이터셋 지정
- 상품 평가 정보에 대한 운전자 취향을 분석해 취향이 비슷한 운전자에게 구매 가능성이 높은 상품 추천
스파크 ML - 분류 라이브러리
- 분류 라이브러리로 "스마트카 이상 징후"를 예측하기 위한 모델 생성
- 트레이닝 데이터로 "스마트카 상태 정보" 데이터셋 이용
- 알고리즘: 랜덤 포레스트 선택
- 최종적으로 트레이닝된 분류모델(Classify)를 애플리케이션에 적용
스파크 ML - 군집 라이브러리
- 군집 라이브러리를 이용 "스마트카 운전자의 운행" 데이터셋에 대해 K개의 군집으로 형성되는 K-means 적용
- 탐색 단계에서는 식별되지 않은 새로운 운행 패턴 발견 및 분석
스쿱 - 분석 결과 Export
- 스쿱의 CLI 명령 중 Export 기능으로 HDFS에 저장된 분석 결과를 RDBMS(PostgreSQL)에 제공
'Hadoop > 빅데이터 파일럿 프로젝트' 카테고리의 다른 글
분석 파일럿 실행 3단계 - 아파치 임팔라를 이용한 데이터 분석 (0) | 2022.09.14 |
---|---|
분석 파일럿 실행 2단계 - 분석 환경구성 (0) | 2022.09.14 |
빅데이터 분석 - 개요 및 기술 (0) | 2022.09.14 |
탐색 파일럿 실행 4단계 - 탐색 기능 테스트 (0) | 2022.09.07 |
탐색 파일럿 실행 3단계 - 탐색 기능 구현 (0) | 2022.09.07 |