| 000 | 00000cam c2200205 c 4500 | |
| 001 | 000046023165 | |
| 005 | 20200407172843 | |
| 007 | ta | |
| 008 | 200407s2020 ggkad b 001c kor | |
| 020 | ▼a 9791190665179 ▼g 93000 | |
| 035 | ▼a (KERIS)BIB000015547270 | |
| 040 | ▼a 241026 ▼c 241026 ▼d 211009 | |
| 041 | 1 | ▼a kor ▼h eng |
| 082 | 0 0 | ▼a 006.3/1 ▼2 23 |
| 085 | ▼a 006.31 ▼2 DDCK | |
| 090 | ▼a 006.31 ▼b 2020z7 | |
| 100 | 1 | ▼a Sutton, Richard S. |
| 245 | 1 0 | ▼a 단단한 강화학습 : ▼b 강화학습 기본 개념을 제대로 정리한 인공지능 교과서 / ▼d 리처드 서튼, ▼e 앤드류 바르토 지음 ; ▼e 김성우 옮김 |
| 246 | 1 9 | ▼a Reinforcement learning : ▼b an introduction ▼g (2nd ed.) |
| 260 | ▼a 파주 : ▼b 제이펍, ▼c 2020 | |
| 300 | ▼a xxix, 633 p. : ▼b 삽화, 도표 ; ▼c 25 cm | |
| 440 | 0 0 | ▼a 제이펍의 인공지능 시리즈 = ▼x Jpub's A.I. series ; ▼v 27 |
| 504 | ▼a 참고문헌(p. 588-624)과 색인수록 | |
| 650 | 0 | ▼a Reinforcement learning |
| 700 | 1 | ▼a Barto, Andrew G., ▼e 저 |
| 700 | 1 | ▼a 김성우, ▼e 역 |
| 900 | 1 0 | ▼a 서튼, 리처드, ▼e 저 |
| 900 | 1 0 | ▼a 바르토, 앤드류, ▼e 저 |
| 945 | ▼a KLPA |
소장정보
| No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
|---|---|---|---|---|---|---|---|
| No. 1 | 소장처 중앙도서관/제2자료실(3층)/ | 청구기호 006.31 2020z7 | 등록번호 511049317 (15회 대출) | 도서상태 대출중 | 반납예정일 2026-02-14 | 예약 예약가능(1명 예약중) | 서비스 |
| No. 2 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.31 2020z7 | 등록번호 121252898 (29회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
| No. 3 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.31 2020z7 | 등록번호 121254394 (22회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
| No. 4 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.31 2020z7 | 등록번호 121257989 (17회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
| No. 5 | 소장처 세종학술정보원/과학기술실(5층)/ | 청구기호 006.31 2020z7 | 등록번호 151350238 (14회 대출) | 도서상태 대출중 | 반납예정일 2026-03-23 | 예약 | 서비스 |
| No. 6 | 소장처 세종학술정보원/과학기술실(5층)/ | 청구기호 006.31 2020z7 | 등록번호 151358616 (5회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
| No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
|---|---|---|---|---|---|---|---|
| No. 1 | 소장처 중앙도서관/제2자료실(3층)/ | 청구기호 006.31 2020z7 | 등록번호 511049317 (15회 대출) | 도서상태 대출중 | 반납예정일 2026-02-14 | 예약 예약가능(1명 예약중) | 서비스 |
| No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
|---|---|---|---|---|---|---|---|
| No. 1 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.31 2020z7 | 등록번호 121252898 (29회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
| No. 2 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.31 2020z7 | 등록번호 121254394 (22회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
| No. 3 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.31 2020z7 | 등록번호 121257989 (17회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
| No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
|---|---|---|---|---|---|---|---|
| No. 1 | 소장처 세종학술정보원/과학기술실(5층)/ | 청구기호 006.31 2020z7 | 등록번호 151350238 (14회 대출) | 도서상태 대출중 | 반납예정일 2026-03-23 | 예약 | 서비스 |
| No. 2 | 소장처 세종학술정보원/과학기술실(5층)/ | 청구기호 006.31 2020z7 | 등록번호 151358616 (5회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
컨텐츠정보
책소개
내용을 대폭 보강하여 20년 만에 개정된 강화학습 분야의 절대 바이블. 인공지능 분야에서 가장 활발하게 연구되고 있는 분야 중 하나인 강화학습은 복잡하고 불확실한 환경과 상호작용하는 학습자에게 주어지는 보상을 최대화하는 수치 계산적 학습 방법이다.
리처드 서튼과 앤드류 바르토는 이 책 《단단한 강화학습》을 통해 강화학습의 핵심적인 개념과 알고리즘을 분명하고 이해하기 쉽게 설명한다. 1판이 출간된 이후 새롭게 부각된 주제들을 추가하였고, 이미 다루었던 주제들도 최신 내용으로 업데이트하였다.
내용을 대폭 보강하여 20년 만에 개정된 강화학습 분야의 절대 바이블!
강화학습의 핵심 개념과 최신 알고리즘을 쉽고 명료하게 이해한다!
인공지능 분야에서 가장 활발하게 연구되고 있는 분야 중 하나인 강화학습은 복잡하고 불확실한 환경과 상호작용하는 학습자에게 주어지는 보상을 최대화하는 수치 계산적 학습 방법이다. 리처드 서튼과 앤드류 바르토는 이 책 《단단한 강화학습》을 통해 강화학습의 핵심적인 개념과 알고리즘을 분명하고 이해하기 쉽게 설명한다. 1판이 출간된 이후 새롭게 부각된 주제들을 추가하였고, 이미 다루었던 주제들도 최신 내용으로 업데이트하였다.
1판과 마찬가지로 2판에서도 핵심적인 온라인 학습 알고리즘을 집중적으로 다루었는데, 보다 많은 수학적 내용을 별도의 글 상자 안에 추가하였다. 이 책은 크게 다음과 같은 세 부분으로 나누어진다.
■ 첫 번째 부분에서는 정확한 해법을 찾을 수 있는 표 기반 방법만을 적용하여 가능한 한 많은 강화학습 방법을 다루었다. 첫 번째 부분에 제시되는 많은 알고리즘은 2판에서 새롭게 추가된 것인데, 여기에는 UCB, 기댓값 살사, 이중 학습이 포함된다.
■ 두 번째 부분에서는 인공 신경망이나 푸리에 기반과 같은 주제를 다루는 절이 새롭게 추가되면서 첫 번째 부분에서 제시된 방법들이 함수 근사 기반의 방법으로 확장되었고, 비활성 정책 학습과 정책 경사도 방법에 대한 내용이 더욱 풍부해졌다.
■ 세 번째 부분에서는 강화학습이 심리학 및 신경 과학과 어떤 관계인지를 다루는 새로운 장들이 추가되었고, 알파고와 알파고 제로, 아타리 게임, IBM 왓슨의 내기 전략과 같은 사례 연구를 다루는 장이 업데이트되었다. 마지막 장에서는 강화학습이 미래 사회에 미칠 영향에 대해 논의하였다.
정보제공 :
저자소개
리처드 서튼(지은이)
앨버타 대학교의 컴퓨터 과학과 교수이자 같은 대학에서 강화학습 및 인공지능 분과의 AITF(Alberta Innovates Technology Future) 의장을 맡고 있다. 또한, 딥마인드의 우수 과학자(Distinguished Research Scientist)이기도 하다.
앤드류 바르토(지은이)
매사추세츠 대학교 애머스트 캠퍼스의 컴퓨터 및 정보과학 대학에서 명예 교수로 재직 중이다.
김성우(옮긴이)
인공위성 제어에 지도학습을 적용한 연구로 박사학위를 받았다. 지금은 인공위성 개발 업체에서 위성 충돌 회피 및 위성 영상 분석을 위한 기계학습 방법을 연구하고 있다.
목차
CHAPTER 01 소개 1 1.1 강화학습 2 1.2 예제 5 1.3 강화학습의 구성 요소 7 1.4 한계와 범위 9 1.5 확장된 예제: 틱택토 10 1.6 요약 16 1.7 강화학습의 초기 역사 17 참고문헌 27 PART I 표 형태의 해법 CHAPTER 02 다중 선택 31 2.1 다중 선택 문제 32 2.2 행동 가치 방법 34 2.3 10중 선택 테스트 35 2.4 점증적 구현 38 2.5 비정상 문제의 흔적 40 2.6 긍정적 초깃값 42 2.7 신뢰 상한 행동 선택 44 2.8 경사도 다중 선택 알고리즘 46 2.9 연관 탐색(맥락적 다중 선택) 50 2.10 요약 51 참고문헌 및 역사적 사실 54 CHAPTER 03 유한 마르코프 결정 과정 57 3.1 에이전트-환경 인터페이스 58 3.2 목표와 보상 64 3.3 보상과 에피소드 66 3.4 에피소딕 작업과 연속적인 작업을 위한 통합 표기법 69 3.5 정책과 가치 함수 70 3.6 최적 정책과 최적 가치 함수 76 3.7 최적성과 근사 82 3.8 요약 83 참고문헌 및 역사적 사실 84 CHAPTER 04 동적 프로그래밍 89 4.1 정책 평가(예측) 90 4.2 정책 향상 94 4.3 정책 반복 97 4.4 가치 반복 100 4.5 비동기 동적 프로그래밍 103 4.6 일반화된 정책 반복 104 4.7 동적 프로그래밍의 효율성 106 4.8 요약 107 참고문헌 및 역사적 사실 109 CHAPTER 05 몬테카를로 방법 111 5.1 몬테카를로 예측 112 5.2 몬테카를로 행동 가치 추정 118 5.3 몬테카를로 제어 119 5.4 시작 탐험 없는 몬테카를로 제어 123 5.5 중요도추출법을 통한 비활성 정책 예측 126 5.6 점증적 구현 133 5.7 비활성 몬테카를로 제어 135 5.8 할인을 고려한 중요도추출법 138 5.9 결정 단계별 중요도추출법 139 5.10 요약 141 참고문헌 및 역사적 사실 143 CHAPTER 06 시간차 학습 145 6.1 TD 예측 146 6.2 TD 예측 방법의 좋은점 150 6.3 TD(0)의 최적성 153 6.4 살사: 활성 정책 TD 제어 157 6.5 Q 학습: 비활성 정책 TD 제어 160 6.6 기댓값 살사 162 6.7 최대화 편차 및 이중 학습 163 6.8 게임, 이후상태, 그 밖의 특별한 경우들 166 6.9 요약 168 참고문헌 및 역사적 사실 169 CHAPTER 07 n단계 부트스트랩 171 7.1 n단계 TD 예측 172 7.2 n단계 살사 177 7.3 n단계 비활성 정책 학습 179 7.4 제어 변수가 있는 결정 단계별 방법 181 7.5 중요도추출법을 사용하지 않는 비활성 정책 학습: n단계 트리 보강 알고리즘 184 7.6 통합 알고리즘: n단계 Q(σ) 187 7.7 요약 189 참고문헌 및 역사적 사실 190 CHAPTER 08 표에 기반한 방법을 이용한 계획 및 학습 191 8.1 모델과 계획 192 8.2 다이나: 계획, 행동, 학습의 통합 194 8.3 모델이 틀렸을 때 199 8.4 우선순위가 있는 일괄처리 202 8.5 기댓값 갱신 대 표본 갱신 206 8.6 궤적 표본추출 210 8.7 실시간 동적 프로그래밍 213 8.8 결정 시점에서의 계획 217 8.9 경험적 탐색 219 8.10 주사위 던지기 알고리즘 221 8.11 몬테카를로 트리 탐색 223 8.12 요약 227 8.13 1부 요약: 차원 228 참고문헌 및 역사적 사실 231 PART II 근사적 해법 CHAPTER 09 근사를 이용한 활성 정책 예측 237 9.1 가치 함수 근사 238 9.2 예측 목적(VE) 239 9.3 확률론적 경사도와 준경사도 방법 241 9.4 선형 방법 246 9.5 선형 방법을 위한 특징 만들기 253 9.6 시간 간격 파라미터를 수동으로 선택하기 268 9.7 비선형 함수 근사: 인공 신경망 269 9.8 최소 제곱 TD 275 9.9 메모리 기반 함수 근사 278 9.10 커널 기반 함수 근사 280 9.11 활성 정책 학습에 대한 보다 깊은 관찰: 관심과 강조 282 9.12 요약 285 참고문헌 및 역사적 사실 286 CHAPTER 10 근사를 적용한 활성 정책 제어 293 10.1 에피소딕 준경사도 제어 294 10.2 준경사도 n단계 살사 297 10.3 평균 보상: 연속적 작업을 위한 새로운 문제 설정 300 10.4 할인된 설정에 대한 반대 304 10.5 미분 준경사도 n단계 살사 307 10.6 요약 308 참고문헌 및 역사적 사실 308 CHAPTER 11 근사를 활용한 비활성 정책 방법 311 11.1 준경사도 방법 312 11.2 비활성 정책 발산의 예제 315 11.3 치명적인 삼위일체 320 11.4 선형 가치 함수 기하 구조 322 11.5 벨만 오차에서의 경사도 강하 327 11.6 벨만 오차는 학습할 수 없다 332 11.7 경사도 TD 방법 337 11.8 강한 TD 방법 341 11.9 분산 줄이기 343 11.10 요약 345 참고문헌 및 역사적 사실 346 CHAPTER 12 적격 흔적 349 12.1 λ 이득 350 12.2 TD(λ) 355 12.3 중단된 n단계 λ 이득 방법 359 12.4 다시 갱신하기: 온라인 λ 이득 알고리즘 361 12.5 진정한 온라인 TD(λ) 363 12.6 몬테카를로 학습에서의 더치 흔적 366 12.7 살사(λ) 368 12.8 가변 λ 및 γ 372 12.9 제어 변수가 있는 비활성 정책 흔적 374 12.10 왓킨스의 Q(λ)에서 트리 보강(λ)로 378 12.11 흔적을 이용한 안정적인 비활성 정책 방법 381 12.12 구현 이슈 383 12.13 결론 384 참고문헌 및 역사적 사실 386 CHAPTER 13 정책 경사도 방법 389 13.1 정책 근사 및 정책 근사의 장점 390 13.2 정책 경사도 정리 393 13.3 REINFORCE: 몬테카를로 정책 경사도 395 13.4 기준값이 있는 REINFORCE 399 13.5 행동자-비평자 방법 401 13.6 연속적인 문제에 대한 정책 경사도 403 13.7 연속적 행동을 위한 정책 파라미터화 406 13.8 요약 408 참고문헌 및 역사적 사실 409 PART III 더 깊이 들여다보기 CHAPTER 14 심리학 413 14.1 예측과 제어 414 14.2 고전적 조건화 416 14.3 도구적 조건화 433 14.4 지연된 강화 438 14.5 인지 지도 440 14.6 습관적 행동과 목표 지향적 행동 442 14.7 요약 447 참고문헌 및 역사적 사실 449 CHAPTER 15 신경과학 457 15.1 신경과학 기본 458 15.2 보상 신호, 강화 신호, 가치, 예측 오차 460 15.3 보상 예측 오차 가설 463 15.4 도파민 465 15.5 보상 예측 오차 가설에 대한 실험적 근거 469 15.6 TD 오차/도파민 유사성 473 15.7 신경 행동자-비평자 479 15.8 행동자와 비평자 학습 규칙 482 15.9 쾌락주의 뉴런 488 15.10 집단적 강화학습 490 15.11 뇌에서의 모델 기반 방법 494 15.12 중독 496 15.13 요약 497 참고문헌 및 역사적 사실 501 CHAPTER 16 적용 및 사례 연구 511 16.1 TD-가몬 511 16.2 사무엘의 체커 선수 518 16.3 왓슨의 이중 내기 522 16.4 메모리 제어 최적화 526 16.5 인간 수준의 비디오 게임 실력 531 16.6 바둑 게임에 통달하다 539 16.7 개인화된 웹 서비스 550 16.8 열 상승 554 CHAPTER 17 프론티어 559 17.1 일반적인 가치 함수 및 보조 작업 559 17.2 옵션을 통한 시간적 추상화 562 17.3 관측과 상태 565 17.4 보상 신호의 설계 572 17.5 남아 있는 이슈들 576 17.6 인공지능의 미래 580 참고문헌 및 역사적 사실 584 참고문헌 588 찾아보기 626



