[Hadoop] CM(Cloudera Manager) 설치
< 빅데이터 파일럿 프로젝트 setup >
- 파일럿 프로젝트 도메인 이해
- 빅데이터 파일럿 아키텍처 이해
- 빅데이터 파일럿 프로젝트용 PC 환경 구성
- 빅데이터 파일럿 프로젝트용 PC 서버 구성
- 빅데이터 클러스트 구성 - CM(Cloudera Manager) 설치
- 클라우데라 매니저(CM) 설치
- Server01 SSH 접속
- 빅데이터 기본 소프트웨어 설치
- DataNode 추가 및 환결설정(저사양은 생략)
- 파일럿 환경 최적화
- HDFS 명령어를 이용한 설치 확인
- 스마트카 로그 시뮬레이터 설치
- 파일럿 환경 구성
빅데이터 클러스트 구성
클라우데라 매니저(CM) 설치
- 프로비저닝 : 하둡 에코시스템을 편리하게 설치, 수정, 삭제 관리
- 매니지먼트 : 설치한 에코시스템 설정 변경 및 최적화 지원
- 모니터링 : 하드웨어 리소스 및 설치 컴포넌트 상태 모니터링/대시보드
Server01 SSH 접속
CM 6.3.1 파일 다운로드 :
# wget http://archive.cloudera.com/cm6/6.3.1/redhat6/yum/cloudera-manager.repo
yum 레포지토리로 복사
# mv /root/cloudera-manager.repo /etc/yum.repos.d/
CM 설치
# yum install -y cloudera-manager-daemons
# yum install -y cloudera-manager-server
PostgreSQL 설치 및 서비스 start
# yum install -y cloudera-manager-server-db-2
# service cloudera-scm-server-db start
PostgreSQL 원격 접근제한 해제 및 서비스 restart
# vi /var/lib/cloudera-scm-server-db/data/pg_hba.conf
# host all cloudera-scm,scm 0.0.0.0/0 reject(기존)
host all cloudera-scm,scm 0.0.0.0/0 md5 (변경)
host all all 0.0.0.0/0 trust (추가)
# service cloudera-scm-server-db restart
CM Start
- 실행 후 CPU 확인
# service cloudera-scm-server start
# service cloudera-scm-server status
Hosts 파일에 가상머신 정보 추가
- 메모장 관리자 권한으로 실행
- C:\Windows\System32\drivers\etc\hosts
메모장에서 파일 > 열기 >
아래 경로의 host 파일을 선택합니다. 가장 하단에 아래 내용을 추가하고 저장합니다
192.168.56.101 server01.hadoop.com
192.168.56.102 server02.hadoop.com
빅데이터 기본 소프트웨어 설치
CM 접속
이전까지의 과정을 잘 따라오셨다면, 오라클 버추얼박스를 켜고, 서버 1과 2를 시작합니다. http://server01.hadoop.com:7180 이 주소로 들어갔을 때, 아래와 같은 페이지가 나오신다면
메모장을 '관리자 권한으로 실행' 합니다.
메모장에서 파일 > 열기 >
아래 경로의 host 파일을 선택합니다


가장 하단에 아래와 같이 내용을 추가하고 저장합니다
192.168.56.101 server01.hadoop.com
192.168.56.102 server02.hadoop.com
새로고침 하지 마시고 아예 껐다가 크롬 등을 새로 들어가서
http://server01.hadoop.com:7180
동일한 주소를 입력하면 Cloudera Manager 로그인 페이지가 아래와 같이 잘 나옵니다.
> 로그인
Cluster Basics
- 클러스터 이름 : Cluster 1
Specify Hosts
- CDH 클러스터 설치에 대한 호스트를 지정합니다.
server01.hadoop.com
server02.hadoop.com
server03.hadoop.com (저사양 생략)
리포지토리 선택
** Cloudera Manager Agent **
- Public Cloudera Repository
** CDH and other software **
- 방식 선택 : Parcel 사용 (권장됨)
- CDH 버전 : CDH-6.3.2-1.cdh6.3.2.p0.1605554
- 추가 Parcel : 모두 없음
JDK 설치 옵션
- Oracle Java SE Development Kit(JDK) 설치: 체크
- Java Unlimited Strength 암호화 정책 파일 설치 : 미체크
Install Agents
- 설치 진행중 오류 나면 서버 재시작
- Install Parcels : 3개 서버에 다운로드 및 배포 작업
- Inspect Cluster 검사후 I understand the risks, let me continue with cluster setup 체크
클러스터에 설치할 Select Services
- 사용자 지정 서비스
- HDFS, YARN, ZooKeeper 선택
- 설치 오류시 로그 확인
/var/log/cloudera-scm-server/cloudera-scm-server.log
HDFS
- NameNode : Server01
- SecondaryNameNode: Server01
- Balancer: Server01
- HttpFS : x
- NFS Gateway: x
- DataNode: Server[02-03]
- 저사양 DataNode : Server02만 설치
Cloudera Management Service
- 기본 환경 Server01 => Server03
- Activity Monitor, Telemetry Publisher 미선택
- 저사양 Server01 => Server02
YARN
- 모두 Server01
- NodeManager : DataNode(으)로 저장
ZooKeeper
- Server02
데이터베이스 설정
- 암호 저장 : PTykqD6btm
- 테스트 연결 => Successful => 계속
변경내용 검토 => 계속완료저사양 시 Cloudera Management Service 는 중지 시킨다
DataNode 추가 및 환경 설정(저사양은 생략)
- 상단 메뉴 > 호스트 > 역할등 확인
- CM HOME > HDFS > 역할 인스턴스 추가
- DataNode > 사용자 지정 > Server01 추가
- 완료 후 DataNode > 선택한 작업 시작(HDFS > 인스턴스)
파일럿 환경 최적화
HDFS 복제 계수 설정
- 하둡 원본 파일의 복제본 갯수
- HDFS > 구성 > 검색 > 복제 계수 > 2 (저사양 1)
HDFS 접근 권한 해제
- HDFS > 구성 > 검색 > 권한 검사 > 체크 해제
- 실 운영에서는 계정별 권한 추천
HDFS 블록 크기 변경
- HDFS > 구성 > 검색 > HDFS 블록 크기
- 128 => 64 (블록수를 늘려 분산율을 높임)
YARN 스케줄러와 리소스매니저 메모리 설정
- YARN > 구성 > 검색 > yarn.scheduler.maximum-allocation-mb > 1 => 1.5GB
- YARN > 구성 > 검색 > yarn.nodemanager.resource.memory-mb > 1 => 5GB
YARN 스케줄러 변경
- 하둡에서 잡(Job) 실행시 YARN의 스케줄러가 분산 데이터노드의 리소를 고려해 잡을 스케줄링
- YARN > 구성 > 검색 > scheduler class > FairScheduler => FifoScheduler
- FifoScheduler 보완한 것이 FairScheduler(고사양시 사용)