HOME > 상세정보

상세정보

실전 하둡 운용 가이드 : 대규모 하둡 클러스터 관리를 위한 필수 노하우 (6회 대출)

자료유형
단행본
개인저자
Sammer, Eric 장형석, 역
서명 / 저자사항
실전 하둡 운용 가이드 : 대규모 하둡 클러스터 관리를 위한 필수 노하우 / 에릭 새머 지음 ; 장형석 옮김
발행사항
서울 :   한빛미디어,   2013  
형태사항
344 p. : 삽화 ; 24 cm
원표제
Hadoop operations
ISBN
9788968480300
일반주기
부록: 사라진 설정 속성  
색인수록  
일반주제명
File organization (Computer science)
000 00886camcc2200289 c 4500
001 000045774913
005 20131118092727
007 ta
008 130718s2013 ulka 001c kor
020 ▼a 9788968480300 ▼g 13000
035 ▼a (KERIS)BIB000013222359
040 ▼a 221016 ▼c 221016 ▼d 221016 ▼d 244002
041 1 ▼a kor ▼h eng
082 0 4 ▼a 005.74 ▼2 23
085 ▼a 005.74 ▼2 DDCK
090 ▼a 005.74 ▼b 2013z1
100 1 ▼a Sammer, Eric
245 1 0 ▼a 실전 하둡 운용 가이드 : ▼b 대규모 하둡 클러스터 관리를 위한 필수 노하우 / ▼d 에릭 새머 지음 ; ▼e 장형석 옮김
246 1 9 ▼a Hadoop operations
260 ▼a 서울 : ▼b 한빛미디어, ▼c 2013
300 ▼a 344 p. : ▼b 삽화 ; ▼c 24 cm
500 ▼a 부록: 사라진 설정 속성
500 ▼a 색인수록
650 0 ▼a File organization (Computer science)
700 1 ▼a 장형석, ▼e
900 1 0 ▼a 새머, 에릭, ▼e

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/과학기술실(5층)/ 청구기호 005.74 2013z1 등록번호 151318481 (6회 대출) 도서상태 대출가능 반납예정일 예약 서비스 B M ?

컨텐츠정보

책소개

상용으로 하둡을 운용하는 방법을 알려주는 실전 가이드다. 하둡 인프라 설계, 배포, 운영, 튜닝, 보안, 백업에 대한 전문적인 정보를 제공한다. 모든 시나리오를 다루는 대신 주요 배포판에서 증명된 작업을 위주로 설명한다.

이 책이 제시하는 핵심 내용
이 책은 상용으로 하둡을 운용하는 방법을 알려주는 실전 가이드다. 하둡 인프라 설계, 배포, 운영, 튜닝, 보안, 백업에 대한 전문적인 정보를 제공한다.

대상 독자
- 하둡을 설치하고 운영하려는 시스템 엔지니어
- 하둡 클러스터 관리자
- 하둡을 체계적으로 다시 공부하고 싶은 개발자

이 책의 내용
이 책은 상용으로 하둡을 실행하는 방법을 알려주는 실전 가이드다. 하둡에 익숙한 사람들은 설치를 위한 대안을 이미 알고 있거나 또는 CPU 효율을 기준으로 맵 슬롯의 개수를 적절하게 조절하는 방법에 대해 다르게 생각할 수도 있다. 하지만 예상보다 더 좋을 것이다. 가능한 모든 시나리오들을 다 나열하는 것이 목적이 아니므로, 주요 배포판에서 검증된 작업을 주로 설명한다. 장별 내용은 다음과 같다.

2장, 3장_ HDFS와 맵리듀스는 무엇이고, 왜 필요하고, 어떻게 동작하는지 심도 깊게 설명한다.
4장_ 하드웨어 선택, 기본 자원 계획, 운영체체 선택과 설정, 하둡 배포판과 버전 선택, 하둡 클러스터를 위한 네트워크 고려사항을 포함한 하둡 배포를 위한 계획의 전 과정을 다룬다.
5장_ 하둡을 직접 설치해서 테스트한다. 5장은 주제별로 구성되어 있으며 중요한 속성들의 목록을 포함한 설정과 설치 정보를 다룬다.
6장_ 강한 보안 요구사항이나 하둡의 식별, 접근, 인증에 대해 다룬다.
7장_ 다수의 그룹이 단일 대형 클러스터를 공유할 때 필요한 모든 것을 다룬다. 이 장은 서비스 수준 규약을 준수하면서 자원들을 적절하게 관리하고 할당하는 데 도움을 준다.
8장_ 모든 것이 준비되고 실행되고 나서 읽어야 할 가장 일반적인 조작과 작업을 위한 실행 설명서를 제공한다.
9장_ 하둡과 같은 복잡한 분산 시스템의 트러블슈팅 이론과 실습을 다루고 약간의 실전 사례도 포함하고 있다.
10장_ 문제를 줄이기 위해 하둡 클러스터의 효율적인 모니터링 방법을 다룬다.
11장_ 하둡의 백업과 돌이킬 수 없는 실패에 대처하는 기본 도구와 기술을 다룬다.

도서 특징
♣ 하둡 클러스터 설치에서 트러블슈팅까지!
클러스터 운영에 필요한 기술 요구사항은 엄청나게 급증하고 있으며, 하둡은 사실상 데이터 센터에서 대규모 데이터를 처리하는 표준이 되었다. 따라서 복잡한 대규모 하둡 클러스터를 관리한다면 이 책을 반드시 읽어야 한다. 클라우데라의 핵심 솔루션 아키텍트인 에릭 새머는 상용 시스템 설정에서 하둡을 운영, 기획, 설치, 관리하는 방법을 상세히 알려준다. 모든 시나리오를 다루는 대신 주요 배포판에서 증명된 작업을 위주로 설명한다.

- HDFS와 맵리듀스에 대한 고수준 개요와 발전 방향을 이해한다.
- 운영체제 및 네트워크 요구사항 등 하둡 배포 계획을 세운다.
- 중요한 속성을 목록화하고 설치와 설정의 세부 내용을 배운다.
- 다수의 그룹이 공유하는 클러스터의 자원을 관리한다.
- 일반적인 클러스터 관리 작업 방법을 익힌다.
- 클러스터를 모니터링하고 사례로부터 트러블슈팅 방법을 배운다.
- 백업과 실패를 처리하기 위한 기본 도구와 기술을 사용한다.

옮긴이의 글
몇 년 전부터 빅데이터가 IT의 주요 트랜드로 전 세계적인 핫이슈입니다. 그 핵심 기술로 하둡과 하둡 에코시스템이 주목을 받고 있는데요, 하둡은 구글이 발표한 구글 파일시스템과 맵리듀스 논문을 더그 커팅이 모방하여 개발한 오픈소스로 2005년에 처음 공개되었습니다. 현재 오픈소스를 체계적으로 개발하고 지원하는 아파치 소프트웨어 재단을 중심으로 전 세계 수많은 개발자가 하둡과 하둡 에코시스템을 개발하고 있습니다. 야후, 페이스북 등 글로벌 인터넷 회사는 하둡을 실제 적용한 서비스를 제공하고 있으며, 내부적인 필요 때문에 만들어진 피그, 하이브 등을 과감히 오픈소스로 공개했습니다.

하둡은 오픈소스이며 현재 개발 과정에 있지만 머지않아 오라클과 같은 상용시스템으로 안정화될 것입니다. 아쉽게도 하둡에 대한 기술 자료는 제대로 정리되어 있지 않고 잘못된 정보도 많아서 개인이 이를 설치하고 사용하는 것은 상당히 어렵습니다. 역자도 많은 시행착오를 거쳤으며 오랜 시간 구글링에 매달렸습니다. 하둡 프로그래밍에 관한 책은 2010년 『하둡 완벽 가이드』를 시작으로 번역서와 저서가 조금씩 출간되고 있습니다. 하지만 하둡을 설치하고 운영하는 내용에 관한 책은 전혀 찾을 수 없었습니다. 그런데 작년 10월 오라일리에서 『Hadoop Operations』가 출간되었고 그 내용을 보면서 정말 놀랄 수밖에 없었습니다. 좋은 책이 나와서 매우 기뻤고, 이 책의 번역을 맡게 되어 기쁨은 두 배가 되었습니다.

이 책은 하둡을 모르는 상태에서 처음 설치하려는 사용자에게는 전혀 도움이 안 될 수도 있습니다. 이 책은 하둡을 상용 수준으로 설치하고 운영하려는 시스템 엔지니어를 위해 만들어졌습니다. 저자인 에릭 새머는 상용 하둡 회사인 클라우데라의 핵심 엔지니어로 많은 실전 경험이 있는 인물입니다. 『실전 하둡 운용 가이드』는 기본 설치에 대해서는 간단히 넘어가지만 하둡 인프라 설계, 배포, 운영, 튜닝, 보안, 백업에 대한 전문적인 정보를 제공하고 있습니다. 저는 현재 클라우데라 매니저와 비슷한 하둡 클러스터 매니저를 개발하고 있는데 이 책에서 큰 도움을 받았습니다.

- 옮긴이 장형석


정보제공 : Aladin

저자소개

에릭 새머(지은이)

클라우데라의 핵심 솔루션 아키텍처로 고객이 하둡 및 관련 대규모 프로젝트를 기획, 배포, 개발, 운영하는 데 도움을 주고 있다. 분산, 동시 처리, 데이터 수집 및 처리 시스템을 개발하고 운영했다. 오픈소스 커뮤니티에 참여하여 지난 10년간 다수의 프로젝트에 기여했다.

장형석(옮긴이)

1996년 공군사관학교에서 기상예보 장교로 실무를 시작하면서 슈퍼 컴퓨터, 수치예보를 경험했으며 '성무기지의 안개와 대청댐의 상관관계 분석' 논문을 썼다. 전역 후 닷컴솔루션을 설립하여 최근까지 SI 사업을 했으며 검색엔진, 그룹웨어, ERP 솔루션을 개발했다. 2003년 검색엔진에 관심을 가지게 된 후 2004년 형태소분석기를 개발하여 오픈소스로 공개했다. 2012년부터는 회사를 정리하고 국내 1호 빅데이터 대학원인 충북대학교 비즈니스데이터융합학과의 교수로 부임하여 분산병렬처리(하둡), 데이터 마이닝과 머신러닝(스파크), 시각화 과목을 맡고 있다. 현재 국민대학교 빅데이터경영MBA과정 겸임교수와 연세대학교 데이터사이언스 과정 외래교수를 맡고 있으며, 숙명여대, 한국생산성본부, 삼성SDS 등 다수의 대학교 및 기업에 출강하고 있다.

정보제공 : Aladin

목차

목차
지은이ㆍ옮긴이 소개 = 4
옮긴이의 말 = 5
감사의 말 = 7
표지 설명 = 9
CHAPTER 1 소개
 1.1 하둡 에코시스템 = 17
 1.2 이 책에 대하여 = 22
CHAPTER 2 하둡 분산 파일시스템
 2.1 목표와 동기 = 25
 2.2 설계 = 26
 2.3 데몬 = 27
 2.4 데이터 읽기와 쓰기 = 30
  2.4.1. 읽기 과정 = 30
  2.4.2. 쓰기 과정 = 31
 2.5 파일시스템 메타데이터 관리 = 33
 2.6 네임노드 고가용성 = 35
 2.7 네임노드 페더레이션 = 37
 2.8 접근과 통합 = 39
  2.8.1. 명령행 도구 = 40
  2.8.2. FUSE = 43
  2.8.3. REST 지원 = 43
CHAPTER 3 맵리듀스
 3.1 맵리듀스 4단계 처리 과정 = 49
 3.2 하둡 맵리듀스 개요 = 57
  3.2.1. 데몬 = 58
  3.2.2. 장애의 모든 유형 = 60
 3.3 얀 = 62
CHAPTER 4 하둡 클러스터 계획 수립
 4.1 하둡 배포판과 버전 선택 = 65
  4.1.1. 아파치 하둡 = 66
  4.1.2. 아파치 하둡을 포함한 클라우데라 배포판 = 66
  4.1.3. 버전과 기능 = 67
  4.1.4. 어떤 버전을 사용할 것인가? = 69
 4.2 하드웨어 선택 = 70
  4.2.1. 마스터하드웨어선택 = 71
  4.2.2. 워커 하드웨어 선택 = 73
  4.2.3. 클러스터 규모 결정 = 75
  4.2.4. 블레이드, SAN, 가상화 = 77
 4.3 운영체제 선택과 준비 사항 = 80
  4.3.1. 배치 레이아웃 = 80
  4.3.2. 소프트웨어 = 82
  4.3.3. 호스트명, DNS, 인식 = 83
  4.3.4. 계정, 그룹, 권한 = 87
 4.4 커널 튜닝 = 89
  4.4.1. vm.swappiness = 90
  4.4.2. vm.overcommit memory = 90
 4.5 디스크 설정 = 91
  4.5.1. 파일시스템 선택 = 91
  4.5.2. 마운트 옵션 = 94
 4.6 네트워크 설계 = 95
  4.6.1. 히둡에서 네트워크 용도: 개요 = 95
  4.6.2. 1Gb 대 10Gb 네트워크 = 97
  4.6.3. 일반적인 네트워크 토폴로지 = 98
CHAPTER 5 설치와 설정
 5.1 하둡 설치하기 = 105
  5.1.1. 아파치 하둡 = 106
  5.1.2. 클라우데라 하둡 배포판(CDH) = 111
 5.2 설정 : 개요 = 116
  5.2.1. 하둡 XML 설정 파일 = 119
 5.3 환경 변수와 셸 스크립트 = 120
 5.4 로그 설정 = 123
 5.5 HDFS = 125
  5.5.1. 식별과 위치 = 125
  5.5.2. 최적화와 튜닝 = 128
  5.5.3. 네임노드 포맷 = 133
  5.5.4. /tmp 디렉터리 생성 = 135
 5.6 네임노드 고가용성 = 136
  5.6.1. 차단 옵션 = 138
  5.6.2. 기본 설정 = 140
  5.6.3. 자동 장애 복구 설정 = 142
  5.6.4. 네임노드 포맷과 부트스트랩 = 145
 5.7 네임노드 페더레이션 = 152
 5.8 맵리듀스 = 160
  5.8.1. 식별과 위치 = 160
  5.8.2. 최적화와 튜닝 = 162
 5.9 랙 토폴로지 = 172
 5.10 보안 = 176
CHAPTER 6 식별, 인증, 허가
 6.1 식별 = 179
 6.2 커버로스와 하둡 = 180
  6.2.1. 커버로스 : 회복제 = 180
  6.2.2. 하둡에서 커버로스의 지원 = 183
 6.3 허가(권한 부여) = 199
  6.3.1. HDFS = 199
  6.3.2. 맵리듀스 = 202
  6.3.3. 다른 도구와 시스템 = 206
 6.4 종합적으로 운용하기 = 212
CHAPTER 7 자원 관리
 7.1 자원 관리란 무엇인가? = 215
 7.2 HDFS 쿼터 = 216
 7.3 맵리듀스 스케줄러 = 219
  7.3.1. FIFO 스케줄러 = 221
  7.3.2. 페어 스케줄러 = 223
  7.3.3. 케퍼시티 스케줄러 = 236
  7.3.4. 미래 = 246
CHAPTER 8 클러스터 관리
 8.1 하둡 프로세스 관리 = 249
  8.1.1. 시작 스크립트로 프로세스를 시작하고 중단하기 = 249
  8.1.2. 수동으로 프로세스를 시작하고 중단하기 = 250
 8.2 HDFS 관리 작업 = 251
  8.2.1. 데이터노드 추가 = 251
  8.2.2. 데이터노드 퇴역 = 251
  8.2.3. fsck로 파일시스템 무결성 점검하기 = 252
  8.2.4. HDFS 블록 데이터 밸런싱 = 258
  8.2.5. 실패한 디스크 처리하기 = 260
 8.3 맵리듀스 관리 작업 = 262
  8.3.1. 태스크트래커 추가 = 262
  8.3.2. 태스크트래커 퇴역 = 262
  8.3.3. 맵리듀스 잡 죽이기 = 263
  8.3.4. 맵리듀스 태스크 죽이기 = 263
  8.3.5. 블랙리스트에 추가된 태스크트래커 처리하기 = 264
CHAPTER 9 트러블슈팅
 9.1 감별 진단의 시스템 적용 = 267
 9.2 일반적인 실패와 문제 = 269
  9.2.1. 사람 = 269
  9.2.2. 잘못된 설정 = 270
  9.2.3. 하드웨어 실패 = 271
  9.2.4. 자원의 고갈 = 272
  9.2.5. 호새 식별과 네이밍 = 273
  9.2.6. 네트워크 단절 = 273
 9.3 컴퓨터 플러그인? = 274
  9.3.1. E-SPORE = 274
 9.4 처방과 보살핌 = 276
 9.5 전쟁 이야기 = 280
  9.5.1. 미스터리 병목현상 = 280
  9.5.2. 127.0.0.1과 같은 IP 주소는 없다 = 285
CHAPTER 10 모니터링
 10.1 개요 = 289
 10.2 하둡 메트릭 = 290
  10.2.1. 아파치하둡 0.20.0과 CDH3(메트릭 1) = 291
  10.2.2. 아파치 하둡 0.20.203과 이후 버전 및 CDH4(메트릭 2) = 299
  10.2.3. SNMP는 무엇인가? = 300
 10.3 상태 모니터링 = 301
  10.3.1. 호스트 수준 점검 = 302
  10.3.2. 모든 하둡 프로세스 = 304
  10.3.3. HDFS 점검 = 306
  10.3.4. 맵리듀스 점검 = 309
CHAPTER 11 백업과 복원
 11.1 데이터 백업 = 313
  11.1.1. 분산 복사(distcp) = 314
  11.1.2. 병렬 데이터 수집 = 317
 11.2 네임노드 메타데이터 = 319
APPENDIX : 사라진 설정 속성 = 323
찾아보기 = 332

관련분야 신착자료

Harvard Business Review (2025)