본문 바로가기

Hadoop/빅데이터 파일럿 프로젝트

분석 파일럿 실행 2단계 - 분석 환경구성

7. 빅데이터 분석

  • 빅데이터 분석 개요
  • 빅데이터 분석에 활용되는 기술
  • 분석 파일럿 실행 1단계 - 분석 아키텍처
  • 분석 파일럿 실행 2단계 - 분석 환경 구성
  • 분석 파일럿 실행 3단계 - 임팔라를 이용한 데이터 실시간 분석
  • 분석 파일럿 실행 4단계 - 제플린을 이용한 실시간 분석
  • 분석 파일럿 실행 5단계 - 머하웃을 이용한 데이터 마이닝
  • 분석 파일럿 실행 6단계 - 스쿱을 이용한 분석 결과 외부 제공


분석 파일럿 실행 2단계

- 분석 환경 구성 -

 


임팔라 설치

  • Cluster1 > 선택 메뉴 > 서비스 추가

추가할 서비스 유형 선택 화면

  • Impala 선택 > ISS, ICS, ID > Server03.
  • 저사양 : Server02에서추가

  • 변경 내용 검토 > 기본값 선택 후 계속


임팔라 설치후

  • Cluster1 > Hue > [구성] > 검색 > Impala > Impala 서비스 : impala 선택

  • Cluster1 > Impala > 시작
  • Cluster1 > Hue > 재시작
  • Hue > Web UI > Query Editor > Impala 추가 확인

스쿱 설치

  • Cluster1 > 선택 메뉴 > 서비스 추가
  • Sqoop 1 Client 선택 > G > 호스트 선택 > Server03
  • 변경 내용 검토 > 기본값 선택 후 계속
  • 저사양 : Server02에서추가

스쿱 설치 후

  • 스쿱은 클라이언트로 서버 기동 없음

제플린 설치

Download(파일크기 : 1GB)

  • Server02 접속
# cd /home/pilot-pjt/
# wget https://archive.apache.org/dist/zeppelin/zeppelin-0.8.2/zeppelin-0.8.2-bin-all.tgz
제플린 다운로드 중인 Server02 session의 화면

다운로드 후 압축풀기

# tar -xvf zeppelin-0.8.2-bin-all.tgz
 
 
환경 설정JAVA_HOME이 설정 되어 있는지 확인
# echo $JAVA_HOME

 

# which javac
# readlink -f /usr/bin/javac

 
 
# ln -s zeppelin-0.8.2-bin-all zeppelin
# cd /home/pilot-pjt/zeppelin/conf
# cp zeppelin-env.sh.template zeppelin-env.sh
# vi zeppelin-env.sh
 
 

교재는 아래 버전으로 되어 있으나, 

export JAVA_HOME=/usr/java/jdk1.8.0_261-amd64

 

export SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark
export HADOOP_CONF_DIR=/etc/hadoop/conf

하이브 임시 디렉토리 권한 변경

 

 

# chmod 777 /tmp/hive

제플린에서 하이브 인터프리터 사용을 위해 설정 복사

 
# cp /etc/hive/conf/hive-site.xml /home/pilot-pjt/zeppelin/conf

설정 변경

  • zeppelin.server.addr : 127.0.0.1 => 0.0.0.0

  • zeppelin.server.prot : 8080 => 8081
  • 스파크 마스터 서비스: 8080 이기 때문

 
# cd /home/pilot-pjt/zeppelin/conf
# cp zeppelin-site.xml.template zeppelin-site.xml

 

# vi zeppelin-site.xml
 
<property>
  <name>zeppelin.server.addr</name>
  <value>0.0.0.0</value>
  <description>Server binding address</description>
</property
<property>
<name>zeppelin.server.prot</name>
<value>8081</value>
...
<property>

root 계정에 path 설정

 
# vi /root/.bash_profile
PATH=$PATH:/home/pilot-pjt/zeppelin/bin
# source /root/.bash_profile

서비스 시작 및 확인 (1분정도 걸림)

 
# zeppelin-daemon.sh start
# zeppelin-daemon.sh status
# http://server02.hadoop.com:8081

주소창에 위 주소를 붙여넣으면 아래와 같은 화면을 볼 수 있습니다


머하웃 설치

  • Server02 접속
# cd /home/pilot-pjt/
  • 파일 설치
# wget https://archive.apache.org/dist/mahout/0.13.0/apache-mahout-distribution-0.13.0.tar.gz
  • 압축 풀기
# tar -xvf apache-mahout-distribution-0.13.0.tar.gz
압축이 풀린 상태에서 ls
  • 단축키 만들기
# ln -s apache-mahout-distribution-0.13.0 mahout
  • 압축된 파일 지우기
rm -f apache-mahout-distribution-0.13.0.tar.gz

root 계정에 path, JAVA_HOME 설정JAVA_HOME이 설정 되어 있는지 확인

 
# echo $JAVA_HOME
# which javac
# readlink -f /usr/bin/javac
# vi /root/.bash_profile
PATH=$PATH:/home/pilot-pjt/mahout/bin
export PATH
  • 버전 주의(설치된 버전을 확인하고 입력)
export JAVA_HOME=/usr/java/jdk1.8.0_261-amd64
 
# source /root/.bash_profile

머하웃 설치 확인

머하웃 실행

# mahout -help

위 텍스트가 나오고 곧이어 아래와 같은 화면을 볼 수 있습니다