| 000 | 01152camcc2200361 c 4500 | |
| 001 | 000045790876 | |
| 005 | 20140313101525 | |
| 007 | ta | |
| 008 | 140311s2013 ulka 001c kor | |
| 020 | ▼a 9788968480201 ▼g 93560 | |
| 035 | ▼a (KERIS)BIB000013187942 | |
| 040 | ▼a 243001 ▼c 243001 ▼d 243001 ▼d 211009 | |
| 041 | 1 | ▼a kor ▼h eng |
| 082 | 0 0 | ▼a 005.74 ▼2 23 |
| 085 | ▼a 005.74 ▼2 DDCK | |
| 090 | ▼a 005.74 ▼b 2013z3 | |
| 100 | 1 | ▼a White, Tom ▼q (Tom E.) |
| 245 | 1 0 | ▼a Hadoop 완벽 가이드 / ▼d 톰 화이트 지음 ; ▼e 심탁길, ▼e 김우현 공역 |
| 246 | 1 9 | ▼a Hadoop : ▼b the definitive guide ▼g (3rd ed.) |
| 246 | 1 8 | ▼a 하둡 완벽 가이드 |
| 250 | ▼a 개정3판 | |
| 260 | ▼a 서울 : ▼b 한빛미디어, ▼c 2013 | |
| 300 | ▼a 812 p. : ▼b 삽화 ; ▼c 24 cm | |
| 500 | ▼a 색인수록 | |
| 500 | ▼a 클라우드 컴퓨팅 구축을 위한 실전 안내서 | |
| 500 | ▼a 부록: A. 아파치 하툽 설치하기, B. 클라우데라의 하둡 배포판, C. NCDC 기상 데이터의 준비 | |
| 630 | 0 0 | ▼a Apache Hadoop |
| 650 | 0 | ▼a File organization (Computer science) |
| 700 | 1 | ▼a 심탁길, ▼e 역 |
| 700 | 1 | ▼a 김우현, ▼e 역 |
| 900 | 1 0 | ▼a 화이트, 톰, ▼e 저 |
| 945 | ▼a KLPA |
소장정보
| No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
|---|---|---|---|---|---|---|---|
| No. 1 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 005.74 2013z3 | 등록번호 121228757 (24회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
컨텐츠정보
책소개
하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 저술한 책이다. 하둡을 가장 완벽하게 다루고 있다. 저자는 하둡 창시자인 더그 커팅을 비롯한 각기 전문가의 강력한 조언을 받았고 이를 본서에 충실하게 반영했다.
하둡은 물론이고 하둡과 연동해서 사용할 수 있는, 아파치 하둡 프로젝트의 서브 프로젝트인 피그, 주키퍼, HBase, 하이브, 스쿱, 에이브 등에 대해서도 다룬다. 또, Last.fm, 페이스북, 랙페이스의 하둡 활용 사례를 통해 어떻게 하둡을 활용해야 하는지 배울 수 있다. 본 한글판은 역자주를 통해 하둡 최신 정보를 반영했다.
[ 이 책이 제시하는 핵심 내용]
이 책은 구글의 알고리즘을 구현한 최고의 클라우드 컴퓨팅 기술인 하둡에 대해 다룬다. 특히 하둡 2.x와 맵리듀스 2를 다룬 최초의 책이다. 사실 하둡 2.x와 얀으로 불리는 맵리듀스 2는 기존 버전과 많이 다르다. 새로 추가된 기능들은 기존 버전에서 아쉬웠던 부분을 메꿔주기 때문에 반드시 도입해야 한다. 커미터가 직접 쓴 이 책을 밑거름 삼아 더 성공적인 클라우드 컴퓨팅 시스템을 구현하자!
[이 책의 특징과 장점]
하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 저술한 이 책은 하둡을 가장 완벽하게 다루고 있다. 저자는 하둡 창시자인 더그 커팅을 비롯한 각기 전문가의 강력한 조언을 받았고 이를 본서에 충실하게 반영했다. 이 책은 하둡은 물론이고 하둡과 연동해서 사용할 수 있는, 아파치 하둡 프로젝트의 서브 프로젝트인 피그, 주키퍼, HBase, 하이브, 스쿱, 에이브 등에 대해서도 다룬다. Last.fm, 페이스북, 랙페이스의 하둡 활용 사례를 통해 어떻게 하둡을 활용해야 하는지 배울 수 있다. 본 한글판은 역자주를 통해 하둡 최신 정보를 반영했다.
[어떤 독자를 위한 책인가?]
- 클라우드 컴퓨팅 분야의 학자, 개발자, 기술 기획자
- 데이터 마이닝 등 데이터 분석 및 알고리즘 학자, 개발자
[도서 특징(책 표지 글)]
데이터에 대한 생각을 전환하라!
500기가바이트를 59초 만에, 100테라바이트를 단 173분 만에 정렬하는 하둡은 상상을 초월하는 데이터 분석 성능을 제공한다. 구글의 알고리즘을 구현한 하둡은 맵리듀스 기법으로 데이터에 대한 생각을 변화시키고, 이전에 보존해 두었던 그 어떤 데이터든지 활용할 수 있게 한다. 전에는 너무 오랜 시간이 걸려 결과를 얻을 수 없었던 문제도 이제는 하둡으로 빠르게 해답을 얻을 수 있게 되었고, 이를 통해 새로운 통찰력도 얻을 수 있게 되었다.
하둡, 클라우드 컴퓨팅의 역사를 바꾸다!
2008년 2월 - 뉴욕타임스는 1851년부터 1980년 12월까지 130년 분량의 신문기사 1,100만 매를 '아마존 S3'에 저장하고, 하둡을 이용하여 약 4테라바이트 크기의 데이터를 24시간 만에 변환했다. 이는, 일반 서버로 대략 14년이 걸리는 어마어마한 작업량이다.
2008년 4월 - 하둡은 '맵리듀스로 테라바이트 데이터 소트' 대회에서 전년도 우승자의 297초에 비해 2/3분 수준인 209초 만에 정렬하며 우승했다. 이어 2009년 5월, 야후는 하둡으로 62초 만에 1테라바이트를 정렬했다.
2009년 4월 - '1분 소트' 대회에서 500기가바이트를 59초에(1,400개 노드에서) 정렬하며 우승했다. 또한 100테라바이트를 173분에(3,400개 노드에서) 정렬했다.
[개정판에서 새로워진 내용]
3판_ 아파치 하둡의 새로운 버전 0.22와 2.x(이전에는 0.23)뿐만 아니라, 1.x(이전에는 0.20) 모두를 다룬다. 이 책의 예제는 몇 가지 예외 사항(책에서 별도로 표시)을 제외하고 모든 버전을 위해 작성되었다. 각 버전에 대한 특성들은 1장 '하둡 릴리즈'에서 상세히 다룬다.
이번 개정판은 새로운 맵리듀스 API를 대부분의 예제에 사용한다. 그럼에도 이전 API가 여전히 폭넓게 활용되고 있기 때문에 새로운 API가 나올 때 함께 논의된다. 이 책에서 제시한 웹 사이트에서 새로운 API에 대응하는 이전 API의 소스 코드가 제공될 것이다.
하둡 2.0의 주요 변화는 얀(YARN)으로 명명된 새로운 분산 리소스 관리 시스템으로 구현된 새로운 맵리듀스(맵리듀스 2)다. 얀 기반의 맵리듀스는 6장과 9장에서 각각 작동 방식 및 실행 방식에 대해 다룬다.
맵리듀스에 대한 더 많은 내용도 다룬다. 메이븐으로 맵리듀스 잡 패키징, 사용자의 자바 클래스 경로 설정, MRUnit으로 테스트 코드 작성과 같은 개발에 필요한 실질적인 내용은 5장에 포함되어 있다. 출력 커미터, 분산 캐시, 태스크 메모리 모니터링과 같은 깊이 있는 맵리듀스 특성은 8장과 9장에서 각각 다룬다. 에이브로 데이터 처리를 위한 맵리듀스 잡 작성은 4장에 새롭게 추가되었고, 오지Oozie를 활용한 간단한 맵리듀스 워크플로우 실행은 5장에 새로 추가되었다.
HDFS 고가용성과 HDFS 통합은 기존 HDFS를 다루었던 3장에 새롭게 추가되었고, WebHDFS와 HttpFS 같은 새로운 파일시스템도 3장에서 함께 다룬다.
피그, 하이브, 스쿱, 주키퍼의 각 장들도 최신 릴리즈의 특성과 변화를 반영하여 내용을 새롭게 추가했다.
이와 더불어 책 전반에 걸쳐 내용에 대한 정정과 개선이 이뤄졌다.
2판_ 하이브와 스쿱에 관한 두 개의 새로운 장(12장과 15장), 에이브로를 다루는 새로운 절(4장), 하둡의 새로운 보안 속성에 대한 소개(9장), 하둡을 사용한 대규모 네트워크 그래프 분석에 대한 새로운 사례분석이 추가되었다.
대용량 데이터에 관한 가장 완벽한 책(개정판)!
하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 저술한 이 책은 하둡을 가장 완벽하게 다루고 있다. 하둡의 개념과 사용법은 물론 Last.fm, 페이스북, 랙페이스의 하둡 활용 사례를 통해 어떻게 하둡을 활용해야 하는지 배울 수 있다. 개정판에서는 최신 변경 내용을 반영하고 하이브, 스쿱, 에이브로 내용을 추가했다.
얀 기반의 맵리듀스
오지(Oozie)를 활용한 맵리듀스 워크플로우 실행
대규모 데이터셋 저장을 위해 하둡 분산파일시스템(HDFS)
맵리듀스를 통한 분산 연산 작업
데이터 압축, 정합성, 직렬화, 영속성을 위한 입출력 빌딩 블록
전용 하둡 클러스터 설계, 구축, 운영 방법
대규모 데이터 처리를 위한 피그
구조화된 데이터와 반-구조화된 데이터를 처리하는 HBase
분산 시스템 구축을 위한 주키퍼
하이브-하둡 데이터웨어하우징 시스템
정보제공 :
저자소개
톰 화이트(지은이)
2007년 2월부터 아파치 하둡 커미터가 되었고, 이후 아파치 소프트웨어 재단의 일원이 되었다. 현재 하둡에 대한 지원과 트레이닝을 제공하는 회사인 클라우데라에서 일하고 있다. 그전에는 독립적인 하둡 고문으로서 하둡을 설치, 사용, 확장하려는 회사와 일했다. oreilly.com, java.net, IBM developerWorks에 수많은 글을 썼으며 몇몇 컨퍼런스에서 하둡에 관해 연설했다. 케임브리지 대학교에서 수학 학사학위를 취득하고, 영국 리즈Leeds 대학교에서 과학 철학 석사학위를 취득하였다.
김우현(옮긴이)
안동사범학교 본과 졸업 한국방송통신대학 행정학과 졸업 영남대학교 교육대학원 졸업 교육공무원 (43년 재직, 정년퇴임) 전, 장학관 (안동 및 경주교육청) 전, 학교장 (구미신평중 외 2개교) 현, 한국침구사협회 회원 현, 대한민국건국회 회원 침구전문 자격 약용식물관리사 자격 체조심판자격 유도, 합기도, 검도 등 (초단) [저서 및 논문] 김우현 동요작곡집 외 작곡집 5회 출판, 농악교본, 경기민요해설집, 전통음악의 원리와 교육, 교가 작곡(상모중 외 200여개 학교), 각종 교육연구대회(교육부 장관상) 12차례 수상 [표창] 황조근정훈장(대통령) 환경교육 공로 표창(환경부장관) 각종 분야 교육부장관상(3회) 도교육감 및 각종 표창(30여회)
심탁길(옮긴이)
삼성SDS, NHN, SK C&C 등에서 개발팀을 이끌며 클라우드 컴퓨팅 서비스 개발, 빅데이터 분석 등의 업무를 수행했다. 현재 틈틈이 야간에 시간을 내서 클라우드와 빅데이터 분야의 오픈소스 프로젝트를 준비 중이다.
목차
목차 저자 서문 = 5 역자 서문 = 6 추천사 = 10 서문 = 12 1장 하둡과의 만남 1.1 데이터! = 31 1.2 데이터 저장소와 분석 = 33 1.3 다른 시스템과의 비교 = 35 1.3.1 관계형 데이터베이스 관리 시스템 = 35 1.3.2 그리드 컴퓨팅 = 38 1.3.3 자발적 컴퓨팅 = 39 1.4 하둡의 역사 = 40 1.5 아파치 하둡과 하둡 생태계 = 45 1.6 하둡 릴리즈 = 46 1.6.1 이 책이 지원하는 릴리즈 = 48 1.6.2 호환성 = 49 2장 맵리듀스 2.1 기상 데이터셋 = 51 2.1.1 데이터 포맷 = 51 2.2 유닉스 도구로 데이터 분석하기 = 53 2.3 하둡으로 데이터 분석하기 = 55 2.3.1 맵과 리듀스 = 55 2.3.2 자바 맵리듀스 = 57 2.4 분산형으로 확장하기 = 67 2.4.1 데이터 흐름 = 67 2.4.2 컴바이너 함수 = 72 2.4.3 분산 맵리듀스 잡 실행하기 = 74 2.5 하둡 스트리밍 = 74 2.5.1 루비 = 75 2.5.2 파이썬 = 78 2.6 하둡 파이프 = 80 2.6.1 컴파일 및 실행 = 82 3장 하둡 분산 파일시스템 3.1 HDFS 설계 = 85 3.2 HDFS 개념 = 87 3.2.1 블록 = 87 3.2.2 네임노드와 데이터노드 = 89 3.2.3 HDFS 통합 = 90 3.2.4 HDFS 고가용성 = 91 3.3 명령행 인터페이스 = 93 3.3.1 기본적인 파일시스템 연산 = 94 3.4 하둡 파일시스템 = 96 3.4.1 인터페이스 = 98 3.5 자바 인터페이스 = 101 3.5.1 하둡 URL로부터 데이터 읽기 = 101 3.5.2 파일시스템 API를 사용하여 데이터 읽기 = 102 3.5.3 데이터 쓰기 = 106 3.5.4 디렉터리 = 109 3.5.5 파일시스템에 질의하기 = 109 3.5.6 데이터 삭제 = 115 3.6 데이터 흐름 = 116 3.6.1 파일 읽기 해부 = 116 3.6.2 파일 쓰기 상세 = 119 3.6.3 일관성 모델 = 123 3.7 데이터 이관을 위한 플룸과 스쿱 = 125 3.8 얀ㅅ체 병렬 복사 = 126 3.8.1 HDFS 클러스터 균형 유지 = 128 3.9 하둡 아카이브 = 128 3.9.1 하둡 아카이브 사용하기 = 129 3.9.2 제약 사항 = 130 4장 하둡 I/O 4.1 데이터 무결성 = 133 4.1.1 HDFS와 데이터 무결성 = 134 4.1.2 LocalFileSystem = 135 4.1.3 ChecksumFileSystem = 136 4.2 압축 = 136 4.2.1 코덱 = 138 4.2.2 압축과 입력 분할 = 143 4.2.3 맵리듀스에서 압축 사용하기 = 145 4.3 직렬화 = 148 4.3.1 Writable 인터페이스 = 149 4.3.2 Writable 클래스 = 152 4.3.3 맞춤형 Writable 구현하기 = 162 4.3.4 직렬화 프레임워크 = 168 4.4 에이브로 = 171 4.4.1 에이브로 데이터형과 스키마 = 172 4.4.2 인메모리 직렬화와 역직렬화 = 176 4.4.3 에이브로 datafile = 179 4.4.4 상호 운영성 = 181 4.4.5 스키마 레졸루션 = 184 4.4.6 정렬 순서 = 187 4.4.7 에이브로 맵리듀스 = 189 4.4.8 에이브로 맵리듀스를 이용하여 정렬하기 = 193 4.4.9 다른 언어의 에이브로 맵리듀스 = 195 4.5 파일 기반 데이터 구조 = 196 4.5.1 SequenceFile = 196 4.5.2 MapFile = 205 5장 맵리듀스 프로그래밍 5.1 환경 설정 API = 214 5.1.1 리소스 결합하기 = 215 5.1.2 변수 확장 = 216 5.2 개발 환경 설정하기 = 217 5.2.1 환경 설정 파일 관리하기 = 219 5.2.2 GenericOpitionsParser, Tool, ToolRunner = 222 5.3 MRUnit으로 유닛 테스트 작성하기 = 226 5.3.1 매퍼 = 226 5.3.2 리듀서 = 229 5.4 로컬에서 실행하기 = 230 5.4.1 로컬 잡 실행하기 = 230 5.4.2 드라이버 테스트하기 = 235 5.5 클러스터에서 실행하기 = 237 5.5.1 잡 패키징 = 237 5.5.2 잡 배포하기 = 239 5.5.3 맵리듀스 웹 UI = 242 5.5.4 결과 얻기 = 246 5.5.5 잡 디버깅 = 247 5.5.6 하둡 로그 = 253 5.5.7 원격 디버깅 = 255 5.6 잡 튜닝하기 = 256 5.6.1 태스크 프로파일하기 = 257 5.7 맵리듀스 작업 흐름 = 260 5.7.1 맵리듀스 잡으로 문제를 분해하기 = 261 5.7.2.JobControl = 262 5.7.3 아파치 오지 = 263 6장 맵리듀스 작동 방법 6.1 맵리듀스 잡 실행 상세분석 = 269 6.1.1 고전적 맵리듀스(맵리듀스 1) = 270 6.1.2 얀(맵리듀스 2) = 278 6.2 실패 = 285 6.2.1 고전적인 맵리듀스 실패 = 285 6.2.2 얀 실패 = 288 6.3 잡 스케줄링 = 290 6.3.1 페어 스케줄러 = 291 6.3.2 커패시티 스케줄러 = 292 6.4 셔플과 정렬 = 292 6.4.1 맵 과정 = 293 6.4.2 리듀스 관점 = 295 6.4.3 설정 조정 = 297 6.5 태스크 실행 = 300 6.5.1 태스크 실행 환경 = 300 6.5.2 투기적 실행 = 301 6.5.3 출력 커미터 = 303 6.5.4 태스크 JVM 재사용 = 306 6.5.5 비정상 레코드 생략하기 = 307 7장 맵리듀스 타입과 포맷 7.1 맵리듀스 타입 = 309 7.1.1 기본적인 맵리듀스 잡 = 314 7.2 입력 포맷 = 322 7.2.1. 입력 스플릿과 레코드 = 322 7.2.2 텍스트 입력 = 336 7.2.3 바이너리 입력 = 340 7.2.4 다중 입력 = 341 7.2.5 데이터베이스 입력과 출력 = 343 7.3 출력 포맷 = 343 7.3.1 텍스트 출력 = 344 7.3.2 바이너리 출력 = 345 7.3.3 다중 출력 = 345 7.3.4 느린 출력 = 350 7.3.5 데이터베이스 출력 = 351 8장 맵리듀스 기능 8.1 카운터 = 353 8.1.1 내장 카운터 = 354 8.1.2 사용자 정의 자바 카운터 = 359 8.1.3 사용자 정의 스트리밍 카운터 = 364 8.2 정렬 = 365 8.2.1 준비 = 365 8.2.2 부분 정렬 = 366 8.2.3 전체 정렬 = 372 8.2.4 보조 정렬 = 376 8.3 조인 = 383 8.3.1 맵-사이드 조인 = 384 8.3.2 리듀스-사이드 조인 = 386 8.4 사이드 데이터 분배 = 390 8.4.1 잡 환경 설정 파일 사용 = 390 8.4.2 분산 캐시 = 390 8.5 맵리듀스 라이브러리 클래스 = 398 9장 하둡 클러스터 설정 9.1 클러스터 명세 = 401 9.1.1 네트워크 위상 = 404 9.2 클러스터 설정 및 설치 = 406 9.2.1 자바 설치 = 406 9.2.2 하둡 사용자 생성 = 406 9.2.3 하둡 설치 = 407 9.2.4 설치 점검하기 = 408 9.3 SSH 설정 = 408 9.4 하둡 환경 설정 = 409 9.4.1 환경 설정 파일 관리 = 410 9.4.2 개발 환경 설정 = 412 9.4.3 중요한 하둡 데몬 속성 = 417 9.4.4 하둡 데몬 주소와 포트 번호 = 424 9.4.5 다른 하둡 속성 = 425 9.4.6 사용자 계정 생성 = 428 9.5 얀 환경 설정 = 429 9.5.1 얀 데몬 속성 가져오기 = 430 9.5.2 얀 데몬 주소와 포트 = 434 9.6 보안 = 435 9.6.1 커버로스와 하둡 = 436 9.6.2 위임 토큰 = 439 9.6.3 다른 보안 강화 사항 = 440 9.7 하둡 클러스터 벤치마킹 = 441 9.7.1 하둡 벤치마크 = 442 9.7.2 사용자 잡 = 445 9.8 하둡 클라우드 = 445 9.8.1 아마존 EC2의 하둡 = 445 10장 하둡 관리 10.1 HDFS = 451 10.1.1 영속적인 데이터 구조 = 451 10.1.2 안전 모드 = 457 10.1.3 감사 로깅 = 459 10.1.4 도구 = 460 10.2 모니터링 = 465 10.2.1 로깅 = 466 10.2.2 매트릭스 = 467 10.2.3 자바 관리 익스텐션 = 470 10.3 관리 = 473 10.3.1 일상적인 관리 절차 = 473 10.3.2 노드 위임과 해제 = 475 10.3.3 업그레이드 = 478 11장 피그 11.1 피그의 설치 및 실행 = 484 11.1.1 실행 유형 = 485 11.1.2 피그 프로그램 실행 = 486 11.1.3 그런트 = 487 11.1.4 피그 라틴 편집기 = 488 11.2 예제 = 488 11.2.1 예제 생성 = 491 11.3 데이터베이스와 비교 = 493 11.4 피그 라틴 = 494 11.4.1 구조 = 494 11.4.2 문장 = 495 11.4.3 표현 = 501 11.4.4 타입 = 502 11.4.5 스키마 = 504 11.4.6 함수 = 509 11.4.7 매크로 = 511 11.5 사용자 정의 함수 = 512 11.5.1 필터 UDF = 512 11.5.2 평가 UDF = 516 11.5.3 로드 UDF = 519 11.6 데이터 처리 연산자 = 523 11.6.1 데이터 로드 및 저장 = 523 11.6.2 데이터 필터링 = 523 11.6.3 그룹핑고 조인 = 527 11.6.4 데이터 정렬 = 533 11.6.5 데이터 결합 및 분리 = 534 11.7 실전 피그 사용 = 535 11.7.1 병렬 처리 = 535 11.7.2 파라미터 대체 = 536 12장 하이브 12.1 하이브 설치하기 = 540 12.1.1 하이브 셸 = 541 12.2 예제 = 542 12.3 하이브 실행하기 = 544 12.3.1 하이브 설정하기 = 544 12.3.2 하이브 서비스 = 547 12.3.3 메타스토어 = 549 12.4 전통적인 데이터베이스와의 비교 = 552 12.4.1 읽기 스키마와 쓰기 스키마 = 552 12.4.2 갱신, 트랜잭션, 색인 = 553 12.5 HiveQL = 554 12.5.1 데이터형 = 556 12.5.2 연산자와 함수 = 558 12.6 테이블 = 559 12.6.1 관리 테이블과 외부 테이블 = 560 12.6.2 파티션과 버킹 = 561 12.6.3 저장 포맷 = 567 12.6.4 데이터 임포트하기 = 573 12.6.5 테이블 변경하기 = 575 12.6.6 테이블 삭제하기 = 576 12.7 데이터 쿼리하기 = 577 12.7.1 정렬과 집계 = 577 12.7.2 맵리듀스 스크립트 = 578 12.7.3 조인 = 579 12.7.4 서브쿼리 = 583 12.7.5 뷰 = 584 12.8 사용자 정의 함수 = 586 12.8.1 UDF 작성하기 = 587 12.8.2 UDAF 작성하기 = 590 13장 HBase 13.1 HBasics = 597 13.1.1 배경 = 598 13.2 개념 = 598 13.2.1 짧은 데이터 모델 여행 = 598 13.2.2 구현 = 600 13.3 설치 = 600 13.3.1 테스트 드라이브 = 604 13.4 클라이언트 = 607 13.4.1 자바 = 607 13.4.2 에이브로, REST, 쓰리프트 = 611 13.5 예제 = 613 13.5.1 스키마 = 613 13.5.2 데이터 적재 = 614 13.5.3 웹 쿼리 = 618 13.6 HBase와 RBMS = 622 13.6.1 성공적인 서비스 = 623 13.6.2 HBase = 624 13.6.3 사용 사례 : streamy.com의 HBase = 625 13.7 연습 = 627 13.7.1 버전 = 628 13.7.2 HDFS = 628 13.7.3 사용자 인터페이스 = 630 13.7.4 매트릭스 = 630 13.7.5 스키마 설계 = 630 13.7.6 카운터 = 631 13.7.7 벌크로드 = 631 14장 주키퍼 14.1 주키퍼의 설치와 실행 = 635 14.2 예제 = 637 14.2.1 주키퍼를 이용한 그룹 멤버십 = 637 14.2.2 그룹 생성 = 638 14.2.3 그룹 가입 = 641 14.2.4 그룹 멤버 목록화 = 642 14.2.5 그룹 삭제 = 644 14.3 주키퍼 서비스 = 646 14.3.1 데이터 모델 = 646 14.3.2 연산 = 648 14.3.3 구현 = 653 14.3.4 일관성 = 655 14.3.5 세션 = 658 14.3.6 상태 = 660 14.4 주키퍼로 응용프로그램 구현하기 = 661 14.4.1 환경 설정 서비스 = 661 14.4.2 탄력적인 주키퍼 응용프로그램 = 665 14.4.3 락 서비스 = 670 14.4.4 더 많은 분산 데이터 구조와 프로토콜 = 673 14.5 주키퍼 실 서비스 = 674 14.5.1 탄력성과 성능 = 674 14.5.2 환경 설정 = 676 15장 스쿱 15.1 스쿱 얻기 = 680 15.2 스쿱 커넥터 = 681 15.3 임포트 예제 = 682 15.3.1 텍스트와 바이너리 파일 포맷 = 685 15.4 생성된 코드 = 686 15.4.1 추가적인 직렬화 시스템 = 687 15.5 데이터베이스 임포트 : 자세히 살펴보기 = 687 15.5.1 임포트 제어하기 = 690 15.5.2 임포트와 일관성 = 690 15.5.3 직접 모드 임포트 = 690 15.6 불러온 데이터로 작업하기 = 691 15.6.1 임포트된 데이터와 하이브 = 692 15.7 대용량 객체 임포트하기 = 695 15.8 익스포트 수행하기 = 697 15.9 익스포트 : 자세히 살펴보기 = 699 15.9.1 익스포트와 트랜잭션성 = 701 15.9.2 익스포트와 시쿼스파일 = 701 16장 사례 연구 16.1 Last.fm의 하둡 사용 사례 = 705 16.1.1 Last.fm : 소셜 음악 혁명 = 705 16.1.2 Last.르과 하둡 = 705 16.1.3 하둡으로 차트 생성하기 = 706 16.1.4 트랙 통계 프로그램 = 707 16.1.5 요약 = 715 16.2 페이스북의 하둡과 하이브 = 716 16.2.1 페이스북과 하둡 = 716 16.2.2 가상의 사용 사례 연구 = 720 16.2.3 하이브 = 723 16.2.4 문제점과 향후의 작업 = 727 16.3 너치 검색 엔진 = 729 16.3.1 데이터 구조 = 731 16.3.2 너치의 하둡 데이터 처리에 관한 선택 예제 = 734 16.3.3 요약 = 746 16.4 랙스페이스에서의 로그 처리 = 747 16.4.1 요구 사항/문제 = 747 16.4.2 간략한 역사 = 748 16.4.3 하둡 선택 = 748 16.4.4 수집과 저장소 = 748 16.4.5 로그에 대한 맵리듀스 = 750 16.5 캐스케이딩 = 756 16.5.1 필드, 튜플, 파이프 = 757 16.5.2 연산 = 761 16.5.3 탭, 스킴, 플로우 = 763 16.5.4 캐스케이딩의 실제 예제 = 764 16.5.5 유연성 = 767 16.5.6 쉐어디스에서의 하둡과 캐스케이딩 = 768 16.5.7 요약 = 773 16.6 아파치 하둡의 테라바이트 정렬 = 774 16.7 피그와 우공으로 10억 개 간선 네트워크 그래프 탐색하기 = 777 16.7.1 커뮤니티 측정하기 = 780 16.7.2 모두 나에게 말을 건다 : 트위터 응답 그래프 = 780 16.7.3 대칭 링크 = 783 16.7.4 커뮤니티 추출 = 785 부록 A. 아파치 하둡 설치하기 = 789 A.1 준비 사항 = 789 A.2 설치 = 790 A.3 환경 설정 = 791 부록 B. 클라우데라의 하둡 배포판 = 796 부록 C. NCDC 기상 데이터의 준비 = 797 찾아보기 = 800
