본문 바로가기

Hadoop/빅데이터 파일럿 프로젝트

분석 파일럿 실행 1단계 - 아키텍처

 

 

 


분석 파일럿 실행 1단계 - 분석 아키텍처

분석 요구사항

요구사항 - 빅데이터 탐색을 통해 해결

  • 요구사항 1 : 차량의 다양한 장치로부터 발생하는 로그 파일을 수집해서 기능별 상태 점검
  • 요구사항 2: 운전자의 운행 정보가 담긴 로그를 실시간으로 수집해서 주행 패턴을 분석

요구사항 확장

  • 빅데이터 실시간 탐색 및 시각화
  • 머신러닝을 이용한 데이터 마이닝

 

요구사항 구체화 및 분석

스마트카 데이터셋을 좀 더 빠르게 탐색 및 분석

  • 임팔라 이용 하이브 배치 쿼리를 온라인 쿼리로 실행

스마트카 데이터셋의 탐색 결과를 이해하기 쉽게 시각화

  • 스파크 SQL로 탐색 후 결과를 제플린의 차트로 시각화

차량용품 구매 이력을 분석해 최적의 상품 추천 목록 만들기

  • 머하웃의 추천 기능 이용, 성향에 따른 상품 추천 목록 생성

스마트카 상태 정보를 분석 이상 징후 예측

  • 머하웃의 분류 감독 학습을 통해 이상 징후에 대한 예측 모델 구성

스마트카 운행 정보를 분석 운행 패턴별 군집을 도출

  • 머하웃의 군집 비감독 학습을 통해 운행 패턴에 대한 군집을 도출

분석된 결과를 외부 업무 시스템의 RDBMS로 제공

  • 스쿱의 데이터 익스포트 이용, HDFS => RDBMS

분석 아키텍처

  • P315 그림7-12 파일럿 프로젝트 분석 아키텍처 참고

휴 - Impala Editor

  • 임팔라 설치하면 휴 > Editor 메뉴에 Impala Editor 추가됨
  • 하이브 배치쿼리를 임팔라의 실시간 쿼리로 빠른 분석 수행
  • 스마트카 상태 정보 On-Line 조회
  • 운전자 운행 정보 On-Line 조회

제플린 - NoteBook

  • 웹 브라우저에 Spark-SQL로 데이터셋 분석
  • 제플린에서 제공하는 다양한 차트로 시각화

머하웃 - 추천 라이브러리

  • 추천 라이브러리에 "차량용품 구매 정보" 데이터셋 지정
  • 상품 평가 정보에 대한 운전자 취향을 분석해 취향이 비슷한 운전자에게 구매 가능성이 높은 상품 추천

스파크 ML - 분류 라이브러리

  • 분류 라이브러리로 "스마트카 이상 징후"를 예측하기 위한 모델 생성
  • 트레이닝 데이터로 "스마트카 상태 정보" 데이터셋 이용
  • 알고리즘: 랜덤 포레스트 선택
  • 최종적으로 트레이닝된 분류모델(Classify)를 애플리케이션에 적용

스파크 ML - 군집 라이브러리

  • 군집 라이브러리를 이용 "스마트카 운전자의 운행" 데이터셋에 대해 K개의 군집으로 형성되는 K-means 적용
    • 탐색 단계에서는 식별되지 않은 새로운 운행 패턴 발견 및 분석

스쿱 - 분석 결과 Export

  • 스쿱의 CLI 명령 중 Export 기능으로 HDFS에 저장된 분석 결과를 RDBMS(PostgreSQL)에 제공