| 000 | 01238camcc2200349 c 4500 | |
| 001 | 000045798917 | |
| 005 | 20140828134518 | |
| 007 | ta | |
| 008 | 131213s2013 ggkad 001c kor | |
| 020 | ▼a 9788998139339 ▼g 93000 | |
| 035 | ▼a (KERIS)BIB000013284799 | |
| 040 | ▼a 243001 ▼c 243001 ▼d 243001 ▼d 244002 ▼d 211009 | |
| 041 | 1 | ▼a kor ▼h eng |
| 082 | 0 4 | ▼a 005.74 ▼a 005.4 ▼2 23 |
| 085 | ▼a 005.74 ▼2 DDCK | |
| 090 | ▼a 005.74 ▼b 2013z6 | |
| 100 | 1 | ▼a Holmes, Alex |
| 245 | 1 0 | ▼a 하둡 인 프랙티스 : ▼b 85가지 고급 예제로 배우는 실전 해법서 / ▼d 알렉스 홈즈 지음 ; ▼e 유윤선 옮김 |
| 246 | 1 9 | ▼a Hadoop in practice |
| 246 | 3 | ▼a 여든다섯가지 고급 예제로 배우는 실전 해법서 |
| 260 | ▼a 파주 : ▼b 위키북스, ▼c 2013 | |
| 300 | ▼a 647 p. : ▼b 삽화, 도표 ; ▼c 24 cm | |
| 440 | 0 0 | ▼a 위키북스 오픈소스 & 웹 시리즈 ; ▼v 053 |
| 500 | ▼a 부록: A. 관련 기술, B. 하둡 내장 인그레스 및 이그레스 툴, C. HDFS 해부 외 | |
| 500 | ▼a 색인수록 | |
| 630 | 0 0 | ▼a Apache Hadoop |
| 650 | 0 | ▼a Electronic data processing ▼x Distributed processing |
| 650 | 0 | ▼a File organization (Computer science) |
| 700 | 1 | ▼a 유윤선, ▼e 역 |
| 900 | 1 0 | ▼a 홈즈, 알렉스, ▼e 저 |
| 949 | ▼a 위키북스 오픈소스 and 웹 시리즈 ; ▼v 053 |
소장정보
| No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
|---|---|---|---|---|---|---|---|
| No. 1 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 005.74 2013z6 | 등록번호 121230631 (11회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
| No. 2 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 005.74 2013z6 | 등록번호 121230910 (14회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
| No. 3 | 소장처 세종학술정보원/과학기술실(5층)/ | 청구기호 005.74 2013z6 | 등록번호 151320607 (3회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
| No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
|---|---|---|---|---|---|---|---|
| No. 1 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 005.74 2013z6 | 등록번호 121230631 (11회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
| No. 2 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 005.74 2013z6 | 등록번호 121230910 (14회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
| No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
|---|---|---|---|---|---|---|---|
| No. 1 | 소장처 세종학술정보원/과학기술실(5층)/ | 청구기호 005.74 2013z6 | 등록번호 151320607 (3회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
컨텐츠정보
책소개
85가지 고급 예제로 배우는 하둡 실전 해법서. 현존하는 책 중 하둡과 관련해 가장 방대한 주제를 다루는 책이다. 이 책에서는 하둡에 대한 기본적인 소개부터 데이터 이동 및 직렬화를 다루는 데이터 로지스틱스, 효과적인 데이터 처리 패턴, 데이터 사이언스, 고수준 추상화 언어를 통한 맵리듀스 활용까지 하둡과 관련한 다양한 궁금증에 대한 답을 85개의 기법을 통해 찾는다. 이 책은 문제/해결책 접근법을 통해 누구든 원하는 궁금증을 빠르게 찾을 수 있는 형태로 돼 있으며, 각 주제에 들어가기에 앞서 다양한 그림과 설명으로 독자가 충분히 관련 주제를 익힐 수 있게 구성돼 있다.
이 책에서 소개하는 85개의 기법은 모두 실전 기법을 다루며, 현업에서 저자를 비롯한 수많은 개발자가 부딪힌 다양한 문제를 토대로 한다. 일례로 이 책에서는 데이터 불균형(data skew)을 효과적으로 해결하는 실전 기법, 캐싱을 활용한 최적화된 조인 방법, LZOP을 활용한 압축 방법, 샘플링을 활용한 효과적인 맵리듀스 파이프라인 최적화 등 실전에서 꼭 필요한 주제이지만 기존 책에서는 다루지 않는 주제를 엄선해 최고의 모범 기법과 해결책을 제시한다.
이 책을 통해 독자들은 하둡을 가장 효과적으로 활용하는 최고의 모범 기법은 물론, 다양한 상황에서 적합한 데이터 입출력 형식 및 압축 형식, 효과적인 코드 최적화 기법 및 디버깅 방법을 익힐 수 있고, 머하웃, 하이브, 피그, 크런치처럼 하둡 생태계를 구성하는 다른 프로젝트와의 연동 기법도 익힐 수 있다. 또 부록에서는 HDFS 내부에서 데이터 읽기/쓰기가 어떻게 진행되는지도 볼 수 있고, 데이터 사이언스 측면에서 빅 데이터를 분석하는 접근법에 대한 혜안도 얻을 수 있다.
하둡은 대규모 클러스터로 분산된 데이터를 조회하고 분석할 수 있게 설계된 오픈소스 맵리듀스 플랫폼이다. 특히 빅 데이터 시스템에 효과적인 하둡은 애플, 이베이, 링크드인, 야후, 페이스북 같은 기업에서 핵심적인 소프트웨어를 처리하고 있다. 하둡을 통해 개발자는 데이터를 편리하게 저장, 관리, 분석할 수 있다.
《하둡 인 프랙티스》에서는 85개의 실전 예제를 수집해 이를 문제/해결책 형태로 보여준다. 이 책에서는 데이터 인그레스/이그레스, 직렬화, LZO 압축 같은 중요한 문제에 대한 개념적 토대를 쌓을 수 있게 하는 동시에 현실적인 레시피를 제공한다. 이 책에서는 각 기법을 단계별로 살펴보고, 이를 통해 구체적인 해결책과 더불어 이 해결책에 적용된 사고 방법을 배운다. 아울러 책에서 제공하는 예제는 이해하기 쉽고, 잘 구조화돼 있는 만큼 조금만 수정해 얼마든지 필요한 곳에 바로 활용할 수도 있다.
★ 이 책에서 다루는 내용 ★
◎ 하둡 및 맵리듀스에 대한 개념적 설명
◎ 85개의 검증된 실전 기법
◎ 현실적인 문제와 현실적인 해결책
◎ 맵리듀스와 R의 연동 방법
이 책에서는 독자들이 하둡에 대해 기본적으로 알고 있다고 가정한다.
정보제공 :
저자소개
알렉스 홈즈(지은이)
15년 이상의 대용량 분산 자바 시스템 개발 경험을 갖춘 수석 엔지니어다. 지난 4년간 알렉스는 하둡을 활용해 다양한 프로젝트에서 빅 데이터 관련 문제를 해결했고 이를 통해 전문성을 쌓았다. 알렉스는 자바원과 Jazoon에서 발표한 바 있으며 현재 베리사인(VeriSign)의 기술 리더다. 알렉스는 http://grepalex.com에서 하둡 관련 프로젝트를 운영하고 있으며, 트위터 주소는 https://twitter.com/grep_alex다.
유윤선(옮긴이)
인디 개발자이자 프리랜서 번역가로 활동 중이다. 역서로는 『단일 페이지 웹 애플리케이션』, 『전문가를 위한 안드로이드 프로그래밍』, 『하둡 인 프랙티스』, 『시작하세요! iOS 6프로그래밍』, 『프로페셔널 Node.js프로그래밍』, 『NoSQL프로그래밍』, 『프로 스프링 3』, 『라이프해커』, 『시작하세요! 아이폰 5 프로그래밍』, 『안드로이드 레시피』, 『시작하세요! Unity 3D 게임 프로그래밍』, 『시작하세요! 안드로이드 게임 프로그래밍』, 『시작하세요! 아이폰 4프로그래밍』, 『플래시 빌더 4& 플렉스 4바이블』, 『쉽고 빠르게 익히는 CSS3』, 『스프링 시큐리티 3』, 『시작하세요! 아이패드 프로그래밍』 등이 있다.
목차
목차 1부 배경과 기초 01 하둡 살펴보기 = 28 1.1 하둡이란? = 29 1.2 하둡 실행 = 40 1.3 정리 = 51 2부 데이터 로지스틱스 02 하둡 데이터 이동 = 54 2.1 주요 인그레스 및 이그레스 고려 요소 = 56 2.2 하둡으로 데이터 옮기기 = 58 2.3 하둡 밖으로 데이터 옮기기 = 112 2.4 정리 = 123 03 데이터 직렬화 텍스트 및 고급 데이터 형식 = 126 3.1 맵리듀스에서의 입출력 이해 = 127 3.2 자주 사용하는 직렬화 형식의 처리 = 135 3.3 빅 데이터 직렬화 형식 = 146 3.4 커스텀 파일 형식 = 184 3.5 정리 = 197 3부 빅 데이터 패턴 04 빅 데이터에 맵리듀스 패턴 적용하기 = 200 4.1 조인 = 201 4.2 정렬 = 220 4.3 샘플링 = 231 4.4 정리 = 236 05 빅 데이터를 위한 HDFS 스트리밍 = 238 5.1 작은 파일의 처리 = 239 5.2 압축을 활용한 효과적인 저장 = 249 5.3 정리 = 267 06 성능 문제 진단 및 튜닝 = 268 6.1 맵리듀스 및 환경의 측정 = 269 6.2 성능을 저해하는 원인의 파악 = 272 6.3 시각화 = 306 6.4 튜닝 = 310 6.5 정리 = 333 4부 데이터 사이언스 07 데이터 구조 및 알고리즘의 활용 = 336 7.1 그래프를 활용한 데이터 모델링 및 문제 해결 = 337 7.2 블룸필터 = 363 7.3 정리 = 373 08 통계 및 그 이상을 위한 R과 하둡의 연동 = 374 8.1 R과 맵리듀스 연동 기술의 비교 = 375 8.2 R 기본 = 376 8.3 R과 스트리밍 = 379 8.4 Rhipe - 클라이언트사이드 R 및 하둡 연동 툴 = 8.5 RHadoop - R과 하둡의 경량 클라이언트사이드 연동 툴 = 393 8.6 정리 = 397 09 머하웃을 활용한 예측적 분석 = 398 9.1 추천인을 활용한 제품 추천 = 399 9.2 분류기 = 408 9.3 K-평균을 활용한 클러스터링 = 422 9.4 정리 = 431 5부 코끼리 길들이기 10 하이브 공략하기 = 434 10.1 하이브의 기본 = 435 10.2 하이브를 활용한 데이터 분석 = 437 10.3 정리 = 465 11 피그 프로그래밍 파이프라인 = 466 11.1 피그의 기본 = 467 11.2 피그를 활용한 로그 데이터 분석 및 악의적인 사용자 찾기 = 469 11.3 피그에서의 사용자 작업 흐름 최적화 = 499 11.4 성능 = 506 11.5 정리 = 510 12 크런치 및 그 외 기술 = 512 12.1 크런치란? = 513 12.2 로그에서 가장 인기 있는 URL 찾기 = 521 12.3 조인 = 526 12.4 캐스케이딩 = 530 12.5 정리 = 532 13 테스트 및 디버깅 = 534 13.1 테스트 = 534 13.2 사용자 공간 문제 디버깅 = 552 13.3 맵리듀스 주의 사항 = 568 13.4 정리 = 574 부록 부록 A. 관련 기술 = 576 A.1 하둡 1.0.x 및 0.20.x = 576 A.2 플룸 = 582 A.3 우지 = 582 A.4 스쿱 = 583 A.5 HBase = 585 A.6 애브로 = 586 A.7 프로토콜 버퍼 = 586 A.8 아파치 쓰리프트 = 588 A.9 스내피 = 589 A.10 LZOP = 592 A.11 엘리펀트 버드 = 596 A.12 후프 = 597 A.13 MySQL = 597 A.14 하이브 = 598 A.15 피그 = 602 A.16 크런치 = 603 A.17 R = 604 A.18 RHIPE = 605 A.19 RHadoop = 606 A.20 머하웃 = 608 부록 B. 하둡 내장 인그레스 및 이그레스 툴 = 610 B.1 명령행 = 610 B.2 자바 API = 610 B.3 파이썬/펄/루비에서의 쓰리프트 활용 = 611 B.4 하둡 퓨즈 = 613 B.5 네임노드 임베디드 HTTP = 614 B.6 HDFS 프록시 = 617 B.7 후프 = 617 B.8 WebHDFS = 620 B.9 분산 복사 = 624 B.10 WebDAV = 625 B.11 맵리듀스 = 625 부록 C. HDFS 해부 = 629 C.1 HDFS란? = 629 C.2 HDFS가 파일을 쓰는 방식 = 630 C.3 HDFS가 파일을 읽는 방식 = 634 부록 D. 최적화된 맵리듀스 조인 프레임워크 = 637 D.1 최적화된 리파티션 조인 프레임워크 = 637 D.2 복제 조인 프레임워크 = 642


