HOME > 상세정보

상세정보

파이썬을 활용한 스파크 프로그래밍 : 빅데이터 분석을 위한 스파크 활용법 (5회 대출)

자료유형
단행본
개인저자
Aven, Jeffrey 송주경, 역
서명 / 저자사항
파이썬을 활용한 스파크 프로그래밍 : 빅데이터 분석을 위한 스파크 활용법 / 제프리 에이븐 지음 , 송주경 옮김
발행사항
서울 :   에이콘출판,   2019  
형태사항
388 p. : 삽화 ; 19 cm
ISBN
9791161753287
000 00000cam c2200205 c 4500
001 000045996341
005 20190904100133
007 ta
008 190830s2019 ulka 000c kor
020 ▼a 9791161753287
040 ▼a 211009 ▼c 211009 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 005.133 ▼2 23
085 ▼a 005.133 ▼2 DDCK
090 ▼a 005.133 ▼b P999 2019z24
100 1 ▼a Aven, Jeffrey
245 1 0 ▼a 파이썬을 활용한 스파크 프로그래밍 : ▼b 빅데이터 분석을 위한 스파크 활용법 / ▼d 제프리 에이븐 지음 , ▼e 송주경 옮김
260 ▼a 서울 : ▼b 에이콘출판, ▼c 2019
300 ▼a 388 p. : ▼b 삽화 ; ▼c 19 cm
546 ▼a 영어로 된 원저작을 한국어로 번역
700 1 ▼a 송주경, ▼e
900 1 0 ▼a 에이븐, 제프리, ▼e

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/과학기술실(5층)/ 청구기호 005.133 P999 2019z24 등록번호 151347115 (5회 대출) 도서상태 대출가능 반납예정일 예약 서비스 B M ?

컨텐츠정보

책소개

스파크는 빅데이터 분석을 위한 가장 핵심적인 기술 중 하나다. 이 책에서는 스파크의 개념 및 설치, 활용법의 상세한 설명으로 독자들의 이해를 돕는다. 또한 스파크와 통합되는 타 기술들과 빅데이터 분석에 관한 전반적인 지식도 다룬다. 대중적으로 익숙한 파이썬을 활용한 소스 코드로 독자들이 쉽게 따라 하며 학습할 수 있도록 구성했다.

★ 이 책에서 다루는 내용 ★

■ 빅데이터 및 하둡 에코 시스템에서 스파크의 진화하는 역할 이해
■ 다양한 배포 모드를 사용해 스파크 클러스터 생성
■ 스파크 클러스터 및 응용 프로그램의 제어 및 최적화
■ 마스터 스파크 코어 RDD API 프로그래밍 기술
■ 공유 변수, RDD 스토리지 및 파티셔닝을 포함한 고급 APl 플랫폼 구성으로 스파크 루틴을 확장, 가속 및 최적화
■ SQL 및 비관계형 데이터 저장소로 스파크를 효율적으로 통합
■ 스파크 스트리밍 및 아파치 카프카를 사용한 스트림 처리 및 메시징 수행
■ SparkR 및 스파크 Mllib를 사용한 예측 모델링 구현

★ 이 책의 대상 독자 ★

빅데이터 분야에 입문하거나 축적한 지식을 이 영역에 통합하려는 데이터 분석가 및 엔지니어를 대상으로 하는 책이다. 스파크는 빅데이터에 탁월한 프로세싱 프레임워크로서 현재 빅데이터 분야에서 전문적인 기술을 보유한 엔지니어가 많이 사용하고 있다.
파이썬 프로그래밍 경험이 있는 사람이라면 이 책을 볼 때 더 이해하기 쉬우므로 파이썬에 관한 경험은 유용하지만, 반드시 필요한 것은 아니다. 데이터 분석 및 조작과 관련한 훌륭한 실무 지식도 도움이 될 수 있다. 특히 빅데이터 영역으로 커리어를 확장하고자 하는 데이터 웨어하우스 전문가에게 적합하다.

★ 이 책의 구성 ★

1부, '스파크 기초'에서는 스파크를 배치하는 방법, 기본적인 데이터 처리 작업을 위해 스파크의 사용법을 확실하게 이해하도록 설계된 네 개의 장이 포함돼 있다.
1장, '빅데이터, 하둡 및 스파크 소개'에서는 스파크 프로젝트의 기원과 진화를 비롯해 빅데이터 에코 시스템에 대한 개념을 설명한다. 스파크 프로젝트의 핵심 속성은 스파크가 무엇인지, 어떻게 사용되는지, 하둡 프로젝트와는 어떤 관련이 있는지 등을 설명한다.
2장, '스파크 배포'에서는 다양한 스파크 클러스터 배포 모드와 스파크를 활용하는 다양한 방법을 포함해 스파크 클러스터를 배포하는 방법을 보여 준다.
3장, '스파크 클러스터 아키텍처의 이해'에서는 스파크 클러스터 및 응용 프로그램의 작동 방식에 관해 설명하고 스파크의 작동 방식을 확실히 이해하도록 돕는다.
4장, '스파크 프로그래밍 기초 학습'에서는 탄력적인 분산 데이터 세트(RDD, Resilient Distributed Dataset) API를 사용해서 스파크의 블록으로 구성된 기본 프로그래밍에 대해 중점적으로 다룬다.

2부, '스파크 응용'에서는 스트리밍 응용 프로그램, 데이터 과학 및 머신 러닝과 함께 사용되는 스파크 코어의 확장 및 응용에 관해 다음 네 개의 장에서 다룬다.
5장, '스파크 코어 API를 사용한 고급 프로그래밍'에서는 다양한 공유 변수 및 RDD 스토리지, 파티션 개념 및 구현을 포함해서 스파크 루틴을 확장, 가속, 최적화하는 데 사용되는 고급 구문을 설명한다.
6장, '스파크로 SQL 및 NoSQL 프로그래밍하기'에서는 스파크가 방대한 SQL 환경 및 비관계형 저장소와 통합하는 것에 관해 설명한다.
7장, '스파크를 사용한 스트림 처리 및 메시징'에서는 스파크 스트리밍 프로젝트와 기본 DStream 객체를 소개한다. 또한 스파크를 아파치 카프카와 같은 대중적인 메시징 시스템과 함께 사용하는 방법도 다룬다.
8장, '스파크를 사용한 데이터 과학 및 머신 러닝 소개'에서는 스파크에서 머신 러닝을 구현하는 데 사용되는 스파크 MLlib 하위 프로젝트뿐만 아니라 R과 스파크를 함께 사용하는 예측 모델링에 관해 소개한다.


정보제공 : Aladin

저자소개

제프리 에이븐(지은이)

호주 멜버른에 본사를 둔 독립적인 빅데이터, 오픈 소스 소프트웨어 및 클라우드 컴퓨팅 전문가다. 고급 컨설턴트이자 강사이며, 『Apache Spark in 24 Hours, Sams Teach Yourself』(Sams Publishing, 2016), 『Apache Spark in 24 Hours, Sams Teach Yourself』(Sams Publishing, 2016) 등 여러 권의 책을 저술했다.

송주경(옮긴이)

삼성전자와 LG전자 연구소에서 연구원으로 소프트웨어를 개발했다. 현재 기업과 대학에서 예술과 기술 융합을 비롯해 생활 속 과학, 창의적 사고와 코딩, 아트워크 실습 등 다양한 강의를 하고 있으며 관련 컨설팅도 진행 중이다.

정보제공 : Aladin

목차

목차
지은이 소개 = 5
지은이의 말 = 6
옮긴이 소개 = 7
옮긴이의 말 = 8
들어가며 = 15
1부 스파크 기초 = 19
 1장 빅데이터, 하둡 및 스파크 소개 = 21
  빅데이터, 분산 컴퓨팅 및 하둡 소개 = 22
   빅데이터와 하둡의 간략한 역사 = 22
   하둡 = 23
  아파치 스파크 소개 = 31
   아파치 스파크 배경 = 31
   스파크 사용 = 32
   스파크 프로그래밍 인터페이스 = 33
   스파크 프로그램의 제출 유형 = 33
   스파크 응용 프로그램의 입력/출력 유형 = 35
   스파크 RDD = 35
   스파크와 하둡 = 35
  파이썬을 이용한 함수 프로그래밍 = 36
   파이썬 함수 프로그래밍에서 사용되는 데이터 구조 = 37
   파이썬 객체 직렬화 = 40
   파이썬 함수형 프로그래밍 기초 = 43
  요약 = 47
 2장 스파크 배포 = 49
  스파크 배포 모드 = 50
   로컬 모드 = 50
   스파크 독립실행형 = 51
   YARN에서의 스파크 = 52
   메소스에서의 스파크 = 53
  스파크 설치 준비 = 54
  스파크 가져오기 = 55
  리눅스나 맥 OS X에서 스파크 설치하기 = 56
  윈도우에 스파크 설치하기 = 58
  스파크 설치 탐색 = 62
  다중노드(Multi-Node) 스파크 독립실행형 클러스터 배포 = 63
  클라우드에서 스파크 배포 = 65
   아마존 웹 서비스 = 65
   구글 클라우드 플랫폼 = 68
   데이터브릭스 = 68
  요약 = 70
 3장 스파크 클러스터 아키텍처의 이해 = 71
  스파크 응용 프로그램의 해부 = 72
   스파크 드라이버 = 73
   스파크 작업자 및 실행자 = 77
   스파크 마스터와 클러스터 매니저 = 79
  독립실행형 스케줄러를 사용하는 스파크 응용 프로그램 = 81
   YARN에서 실행되는 스파크 응용 프로그램 = 82
  YARN에서 실행되는 스파크 응용 프로그램의 배포 모드 = 82
   클라이언트 모드 = 82
   클러스터 모드 = 84
   로컬 모드 재검토 = 86
  요약 = 87
 4장 스파크 프로그래밍 기초 학습 = 89
  RDD의 소개 = 90
  RDD에 데이터 로드하기 = 92
   하나 이상의 파일에서 RDD 생성하기 = 92
   하나 이상의 텍스트 파일에서 RDD를 만드는 방법 = 94
   오브젝트 파일에서 RDD 만들기 = 99
   데이터 소스에서 RDD 만들기 = 99
   JSON 파일에서 RDD 만들기 = 103
   프로그래밍 방식으로 RDD 생성하기 = 105
  RDD 연산 = 106
   주요 RDD 개념 = 106
   기본 RDD 변환 = 113
   기본 RDD 액션 = 119
   PairRDD의 변환 = 125
   맵리듀스 및 워드 카운트(Word Count) 연습 = 134
   조인(Join) 변환 = 139
   스파크에서 데이터세트 조인하기 = 146
   세트(Sets)의 변환 = 151
   숫자(numeric) RDD의 변환 = 154
  요약 = 158
2부 스파크 응용 = 159
 5장 스파크 코어 API를 사용한 고급 프로그래밍 = 161
  스파크의 공유변수 = 162
   브로드캐스트 변수 = 162
   어큐뮬레이터 = 168
   연습 : 브로드캐스트 변수 및 어큐뮬레이터 사용 = 171
  스파크의 데이터 파티셔닝 = 174
   파티셔닝 개요 = 174
   파티션 제어 = 175
   함수 재분할 = 177
   파티션 별 또는 파티션 인식 API 메소드 = 180
  RDD 저장 옵션 = 183
   RDD 리니지 재검토 = 183
   RDD 저장 옵션 = 184
   RDD 캐싱 = 187
   RDD 유지 = 188
   RDD를 유지하거나 캐시할 시기 선택하기 = 192
   RDD 체크포인트 지정 = 192
   연습 : RDD 체크포인트 = 195
  외부 프로그램으로 RDD 처리하기 = 197
  스파크를 사용해 데이터 샘플링하기 = 199
  스파크 응용 프로그램 및 클러스터 구성 이해하기 = 201
   스파크 환경변수 = 201
   스파크 구성 속성 = 205
  스파크 최적화하기 = 210
   초기 필터, 자주 필터 = 210
   연관연산 최적화하기 = 210
   함수 및 클로저의 영향 이해하기 = 213
   데이터 수집을 위한 고려 사항 = 214
   응용 프로그램 조정 및 최적화를 위한 구성 매개변수 = 214
   비효율적인 파티셔닝 피하기 = 215
   응용 프로그램 성능 문제 진단하기 = 217
  요약 = 222
6장 스파크로 SQL 및 NoSQL 프로그래밍하기 = 223
  스파크 SQL 소개 = 224
   하이브 소개 = 224
   스파크 SQL 아키텍처 = 229
   데이터프레임 시작하기 = 233
   데이터프레임 사용 = 247
   캐싱, 지속 및 데이터프레임 재구성 = 259
   데이터프레임 출력 저장 = 259
   스파크 SQL 액세스하기 = 264
   연습 : 스파크 SQL 사용하기 = 267
  NoSQL 시스템에서 스파크 사용하기 = 270
   NoSQL 소개 = 270
   HBase와 스파크 사용하기 = 272
   연습 : HBase로 스파크 사용하기 = 276
   카산드라와 함께 스파크 사용하기 = 278
   DynamoDB에서 스파크 사용하기 = 282
   기타 NoSQL 플랫폼 = 284
  요약 = 284
7장 스파크를 사용한 스트림 처리 및 메시징 = 287
  스파크 스트리밍 소개 = 288
   스파크 스트리밍 아키텍처 = 288
   DStream 소개 = 290
   연습 : 스파크 스트리밍 시작하기 = 299
   State 연산 = 301
   슬라이딩 윈도우 연산 = 303
  구조화된 스트리밍 = 306
   구조화된 스트리밍 데이터 소스 = 307
   구조화된 스트리밍 데이터 싱크 = 308
   출력 모드 = 310
   구조화된 스트리밍 연산 = 310
  메시징 플랫폼에서 스파크 사용 = 312
   아파치 카프카 = 313
   연습 : 카프카와 스파크 사용하기 = 320
   아마존 킨시스 = 3242
  요약 = 329
8장 스파크를 사용한 데이터 과학 및 머신 러닝 소개 = 331
  스파크 및 R = 331
   R 소개 = 332
   R에 스파크 사용하기 = 340
   연습 : SparkR과 함께 RStudio 사용하기 = 349
  스파크로 머신 러닝하기 = 352
   머신 러닝 입문서 = 352
   스파크 MLlib를 사용한 머신 러닝 = 356
   연습 : 스파크 MLlib를 사용해서 Recommender 구현하기 = 363
   스파크 ML을 사용한 머신 러닝 = 367
  스파크와 함께 노트북 사용하기 = 373
   주피터(IPython) 노트북과 스파크 사용하기 = 373
   스파크에서 아파치 제플린 노트북 사용하기 = 375
  요약 = 377
찾아보기 = 378

관련분야 신착자료

Harvard Business Review (2025)