7. 빅데이터 분석
- 빅데이터 분석 개요
- 빅데이터 분석에 활용되는 기술
- 분석 파일럿 실행 1단계 - 분석 아키텍처
- 분석 파일럿 실행 2단계 - 분석 환경 구성
- 분석 파일럿 실행 3단계 - 임팔라를 이용한 데이터 실시간 분석
- 분석 파일럿 실행 4단계 - 제플린을 이용한 실시간 분석
- 분석 파일럿 실행 5단계 - 머하웃을 이용한 데이터 마이닝
- 분석 파일럿 실행 6단계 - 스쿱을 이용한 분석 결과 외부 제공
분석 파일럿 실행 2단계
- 분석 환경 구성 -
- CM을 이용해 임팔라, 스쿱 설치
- http://server01.hadoop.com:7180/
- 제플린 직접 설치
임팔라 설치
- Cluster1 > 선택 메뉴 > 서비스 추가
- Impala 선택 > ISS, ICS, ID > Server03.
- 저사양 : Server02에서추가
- 변경 내용 검토 > 기본값 선택 후 계속
임팔라 설치후
- Cluster1 > Hue > [구성] > 검색 > Impala > Impala 서비스 : impala 선택
- Cluster1 > Impala > 시작
- Cluster1 > Hue > 재시작
- Hue > Web UI > Query Editor > Impala 추가 확인
스쿱 설치
- Cluster1 > 선택 메뉴 > 서비스 추가
- Sqoop 1 Client 선택 > G > 호스트 선택 > Server03
- 변경 내용 검토 > 기본값 선택 후 계속
- 저사양 : Server02에서추가
스쿱 설치 후
- 스쿱은 클라이언트로 서버 기동 없음
제플린 설치
Download(파일크기 : 1GB)
- Server02 접속
# cd /home/pilot-pjt/
# wget https://archive.apache.org/dist/zeppelin/zeppelin-0.8.2/zeppelin-0.8.2-bin-all.tgz

다운로드 후 압축풀기
# tar -xvf zeppelin-0.8.2-bin-all.tgz
환경 설정JAVA_HOME이 설정 되어 있는지 확인
# echo $JAVA_HOME
# which javac
# readlink -f /usr/bin/javac
# ln -s zeppelin-0.8.2-bin-all zeppelin
# cd /home/pilot-pjt/zeppelin/conf
# cp zeppelin-env.sh.template zeppelin-env.sh
# vi zeppelin-env.sh
교재는 아래 버전으로 되어 있으나,
export JAVA_HOME=/usr/java/jdk1.8.0_261-amd64
export SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark
export HADOOP_CONF_DIR=/etc/hadoop/conf
하이브 임시 디렉토리 권한 변경
# chmod 777 /tmp/hive
제플린에서 하이브 인터프리터 사용을 위해 설정 복사
# cp /etc/hive/conf/hive-site.xml /home/pilot-pjt/zeppelin/conf
설정 변경
- zeppelin.server.addr : 127.0.0.1 => 0.0.0.0
- zeppelin.server.prot : 8080 => 8081
- 스파크 마스터 서비스: 8080 이기 때문
# cd /home/pilot-pjt/zeppelin/conf
# cp zeppelin-site.xml.template zeppelin-site.xml
# vi zeppelin-site.xml
<property>
<name>zeppelin.server.addr</name>
<value>0.0.0.0</value>
<description>Server binding address</description>
</property
<property>
<name>zeppelin.server.prot</name>
<value>8081</value>
...
<property>
root 계정에 path 설정
# vi /root/.bash_profile
PATH=$PATH:/home/pilot-pjt/zeppelin/bin
# source /root/.bash_profile
서비스 시작 및 확인 (1분정도 걸림)
# zeppelin-daemon.sh start
# zeppelin-daemon.sh status

# http://server02.hadoop.com:8081
주소창에 위 주소를 붙여넣으면 아래와 같은 화면을 볼 수 있습니다
머하웃 설치
- Server02 접속
# cd /home/pilot-pjt/
- 파일 설치
# wget https://archive.apache.org/dist/mahout/0.13.0/apache-mahout-distribution-0.13.0.tar.gz
- 압축 풀기
# tar -xvf apache-mahout-distribution-0.13.0.tar.gz

- 단축키 만들기
# ln -s apache-mahout-distribution-0.13.0 mahout
- 압축된 파일 지우기
rm -f apache-mahout-distribution-0.13.0.tar.gz
root 계정에 path, JAVA_HOME 설정JAVA_HOME이 설정 되어 있는지 확인

# echo $JAVA_HOME

# which javac
# readlink -f /usr/bin/javac
# vi /root/.bash_profile
PATH=$PATH:/home/pilot-pjt/mahout/bin
export PATH
- 버전 주의(설치된 버전을 확인하고 입력)
export JAVA_HOME=/usr/java/jdk1.8.0_261-amd64
# source /root/.bash_profile
머하웃 설치 확인
머하웃 실행
# mahout -help
위 텍스트가 나오고 곧이어 아래와 같은 화면을 볼 수 있습니다
'Hadoop > 빅데이터 파일럿 프로젝트' 카테고리의 다른 글
분석 파일럿 실행 4단계 - 제플린을 이용한 데이터 분석 (0) | 2022.09.14 |
---|---|
분석 파일럿 실행 3단계 - 아파치 임팔라를 이용한 데이터 분석 (0) | 2022.09.14 |
분석 파일럿 실행 1단계 - 아키텍처 (0) | 2022.09.14 |
빅데이터 분석 - 개요 및 기술 (0) | 2022.09.14 |
탐색 파일럿 실행 4단계 - 탐색 기능 테스트 (0) | 2022.09.07 |