본문 바로가기

Hadoop/빅데이터 파일럿 프로젝트

탐색 파일럿 실행 3단계 - 탐색 기능 구현 빅데이터 탐색 개요 빅데이터 탐색에 활용되는 기술 탐색 파일럿 실행 1단계 - 탐색 아키텍처 탐색 파일럿 실행 2단계 - 탐색 환경 구성 탐색 파일럿 실행 3단계 - 탐색 기능 구현 HDFS에 적재된 데이터 확인 : 파일 브라우저 HBase에 적재된 데이터 확인 하이브를 이용한 External 데이터 탐색(1) 하이브를 이용한 External 데이터 탐색(2) 데이터셋 추가 Hive SmartCar_Master 테이블 생성 Hive SmartCar_Item_BuyList 테이블 생성 Spark를 이용한 추가 데이터 탐색 탐색 파일럿 실행 4단계 - 탐색 기능 테스트 탐색 파일럿 실행 3단계 - 휴를 이용한 데이터 탐색 CM > Hue > 웹 UI > admin / admin http://server02... 더보기
탐색 파일럿 실행 2단계 - 탐색 환경 구성 빅데이터 탐색 개요 빅데이터 탐색에 활용되는 기술 탐색 파일럿 실행 1단계 - 탐색 아키텍처 탐색 파일럿 실행 2단계 - 탐색 환경 구성 저사양 파일럿 환경 서비스 중지 Hive 설치 Oozie 설치 Hue 설치 python 2.7 설치 : server02 psycopg2 설치 Oozie 설치 후 구성변경 Hue 설치 후 구성변경 Spark 설치 Spark 설치 후 YARN에서 작동하도록 구성 탐색 환경의 구성 및 설치 완료 클러스트 재시작 탐색 파일럿 실행 3단계 - 탐색 기능 구현 탐색 파일럿 실행 4단계 - 탐색 기능 테스트 실시간 탐색 파일럿 실행 2단계 - 탐색 환경 구성 저사양 파일럿 환경 서비스 중지 클라우드 매니저(CM)에서 플럼, 카프카 서비스 중지 Service0 스톰 정지: servi.. 더보기
탐색 파일럿 실행 1단계 - 아키텍처 빅데이터 탐색 개요 빅데이터 탐색에 활용되는 기술 탐색 파일럿 실행 1단계 - 탐색 아키텍처 탐색 파일럿 실행 2단계 - 탐색 환경 구성 탐색 파일럿 실행 3단계 - 탐색 기능 구현 탐색 파일럿 실행 4단계 - 탐색 기능 테스트 빅데이터 탐색 개요 탐색 영역은 적재된 데이터를 가공하고 이해하는 단계 데이터 이해 => 데이터들의 패턴, 관계, 트렌드 찾기 => 탐색적 분석(EDA:Exploratory Data Analysis) 탐색 과정은 분석에 들어가기에 앞서 빅데이터의 품질과 인사이트를 확보하는 매우 중요한 단계 비정형 데이터를 정교한 후처리 작업(필터링, 클린징, 통합, 분리 등) => 정형화 데이터 탐색 결과는 곧 바로 분석 마트를 위한 기초데이터로 활용 이런 일련의 처리/탐색, 분석/응용 과정 =.. 더보기
빅데이터 적재 - 실시간 로그 파일 적재 / 환경 구성(2) 빅데이터 실시간 적재 개요 빅데이터 실시간 적재에 활용되는 기술 실시간 적재 파일럿 실행 1단계 - 적재 아키텍처 실시간 적재 파일럿 실행 2단계 - 적재 환경 구성 프로그램 설치 및 설정, 테스트 01 HBase 설치 02 Redis 설치 03 Storm 설치 실시간 적재 파일럿 실행 3단계 - 적재 기능 구현 스톰의 Spout와 Bolt 프로그램 구현 단계 01 - Kafk Spout 구현 02 Split Bolt 구현 03 HBase Bolt 구현 04 Esper Bolt 구현 05 Redis Bolt 구현 06 Redis 클라이언트 구현 07 HBase 테이블 생성 08 Storm 토폴로지 배포 실시간 적재 파일럿 실행 4단계 - 적재 기능 테스트 CM 각 서버 정상 확인 스톰, 레디스 서비스 정.. 더보기
빅데이터 적재 - 실시간 로그 파일 적재(1) 빅데이터 실시간 적재 개요 빅데이터 실시간 적재에 활용되는 기술 실시간 적재 파일럿 실행 1단계 - 적재 아키텍처 실시간 적재 파일럿 실행 2단계 - 적재 환경 구성 실시간 적재 파일럿 실행 3단계 - 적재 기능 구현 실시간 적재 파일럿 실행 4단계 - 적재 기능 테스트 빅데이터 실시간 적재 개요 적재 직전에 실시간 분석 작업 수행 => 인메모리 시스템 Redis 실시간 발생하는 대규모 메세지 시속하게 영구 저장 => NoSQL => HBase 제약 사항이 적고 랜덤 액세스가 가능해져 대규모 실시간 처리 가능 빅데이터 실시간 적재에 활용할 기술 NoSQL HBase http://hbase.apache.org 하둡 기반 칼럼지향(Column-Oriented) NoSQL 칼럼지향 : 테이블 문서지향 : 입력.. 더보기
빅데이터 적재(1) - 대용량 로그 파일 적재 빅데이터 적재 개요 빅데이터 적재에 활용되는 기술 적재 파일럿 실행 1단계 - 적재 아키텍처 적재 파일럿 실행 2단계 - 적재 환경 구성 적재 파일럿 실행 3단계 - 적재 기능 구현 적재 파일럿 실행 4단계 - 적재 기능 테스트 빅데이터 적재 개요 수집한 데이터를 어디에, 어떻게 저장 할 것인가? 적재 후 분석 방식과 업무 시스템 성격에 따라 달리 구성 분산 파일, NoSQL, 메모리 캐시등 적재 저장소 유형 P138 그림 4-2 참고 내/외부 원천 데이터 정형 데이터 : 데이터베이스(관계/계층/객체/네트워크) 반정형 데이터: HTML / XML / JSON / 서버로그 비정형 데이터: 소셜미디어, 문서, 이미지, 오디오, 비디오, IoT 적재 저장소 유형 대용량 파일 전체 영구 저장 => 분산파일 시스.. 더보기
[Hadoop] 빅데이터수집 수집 파일럿 실행 3단계 - 플럼 수집 기능 구현 0906 1. 일단위 수집(=대용량 데이터) 2. 실시간 수집( - 저장하고 처리하는 방식이 다르다 Zookeeper 설치 대용량 데이터, 유실될 가능성을 염두하여 바로 hadoop으로 저장하지 않고 1차적으로 Flume 으로 저장 - 하둡으로 보내는 싱크 - 카프카로 보내는 싱크 이 싱크들이 이미 만들어져있다. 용어적으로 에이전트. 소스채널 에이전트. 중간으로 보내는 채널 어디로 내보낼 건데~ 싱크! 플럼에 저장되어 있는 것을 로그파일로 볼 거고, 싱크를 거쳐 하둡으로 뿅 들어가는 걸 볼 거다 *실시간데이터 Flume 으로 저장하지만, Kafka에 임시저장하도록 중간의 저장소를 하나 더 두었다. 카프카에서.. 더보기
[Hadoop] 빅데이터 파일럿 프로젝트_ 파일럿 환경 구성 파일럿 프로젝트 도메인 이해 빅데이터 파일럿 아키텍처 이해 빅데이터 파일럿 프로젝트용 PC 환경 구성 빅데이터 파일럿 프로젝트용 PC 서버 구성 CM(Cloudera Manager) 설치 스마트카 로그 시뮬레이터 설치 파일럿 환경 구성 7. 파일럿 환경 구성 더보기