HOME > Detail View

Detail View

밑바닥부터 시작하는 딥러닝. 4, 직접 구현하며 익히는 강화 학습 알고리즘 (Loan 16 times)

Material type
단행본
Personal Author
齋藤康毅, 1984- 이복연, 역
Title Statement
밑바닥부터 시작하는 딥러닝 = Deep learning from scratch. 4, 직접 구현하며 익히는 강화 학습 알고리즘 / 사이토 고키 지음 ; 개앞맵시 옮김
Publication, Distribution, etc
서울 :   한빛미디어,   2024  
Physical Medium
372 p. : 천연색삽화, 도표 ; 24 cm
Varied Title
ゼロから作るDeep Learning. 4, 強化学習編
기타표제
파이썬으로 직접 구현하며 배우는 강화 학습 알고리즘
ISBN
9791169211956
General Note
'개앞맵시'의 본명은 '이복연'임  
부록: A. 오프-정책 몬테카를로법, B. n단계 TD법, C. Double DQN 이해하기 외  
Bibliography, Etc. Note
참고문헌(p. 362-366)과 색인수록
000 00000cam c2200205 c 4500
001 000046170542
005 20240214171705
007 ta
008 240213s2024 ulkad b 001c kor
020 ▼a 9791169211956 ▼g 93000
035 ▼a (KERIS)BIB000016925969
040 ▼a 211048 ▼c 211048 ▼d 211009
041 1 ▼a kor ▼h jpn
082 0 4 ▼a 006.31 ▼2 23
085 ▼a 006.31 ▼2 DDCK
090 ▼a 006.31 ▼b 2017 ▼c 4
100 1 ▼a 齋藤康毅, ▼d 1984- ▼0 AUTH(211009)122664
245 1 0 ▼a 밑바닥부터 시작하는 딥러닝 = ▼x Deep learning from scratch. ▼n 4, ▼p 직접 구현하며 익히는 강화 학습 알고리즘 / ▼d 사이토 고키 지음 ; ▼e 개앞맵시 옮김
246 1 3 ▼a 파이썬으로 직접 구현하며 배우는 강화 학습 알고리즘
246 1 9 ▼a ゼロから作るDeep Learning. ▼n 4, ▼p 強化学習編
246 3 ▼a Zero kara tsukuru dipu raningu. ▼n 4, ▼p Kyōka gakushūhen
260 ▼a 서울 : ▼b 한빛미디어, ▼c 2024
300 ▼a 372 p. : ▼b 천연색삽화, 도표 ; ▼c 24 cm
500 ▼a '개앞맵시'의 본명은 '이복연'임
500 ▼a 부록: A. 오프-정책 몬테카를로법, B. n단계 TD법, C. Double DQN 이해하기 외
504 ▼a 참고문헌(p. 362-366)과 색인수록
700 1 ▼a 이복연, ▼e▼0 AUTH(211009)86652
900 1 0 ▼a 사이토 고키, ▼e
900 1 0 ▼a Saitō, Kōki, ▼e
900 0 0 ▼a 개앞맵시, ▼e
945 ▼a ITMT

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 006.31 2017 4 Accession No. 121265648 (14회 대출) Availability Available Due Date Make a Reservation Service B M
No. 2 Location Sejong Academic Information Center/Science & Technology/ Call Number 006.31 2017 4 Accession No. 151368689 (2회 대출) Availability Loan can not(reference room) Due Date Make a Reservation Service M ?
No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 006.31 2017 4 Accession No. 121265648 (14회 대출) Availability Available Due Date Make a Reservation Service B M
No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Sejong Academic Information Center/Science & Technology/ Call Number 006.31 2017 4 Accession No. 151368689 (2회 대출) Availability Loan can not(reference room) Due Date Make a Reservation Service M ?

Contents information

Book Introduction

『밑바닥부터 시작하는 딥러닝』 시리즈, 이번엔 강화 학습이다. 강화 학습 핵심 이론부터 문제 풀이, 심층 강화 학습까지 한 권에 담았다. 이 책의 특징은 제목 그대로 ‘밑바닥부터 만들어가는 것’이다. 속을 알 수 없는 외부 라이브러리에 의존하지 않고 강화 학습 알고리즘을 처음부터 구현하면서 배운다.

그림으로 원리를 이해하고 수학으로 강화 학습 문제를 풀어본 다음, 코드로 구현해 배운 내용을 되짚어본다. 코드는 최대한 간결하면서도 강화 학습에서 중요한 아이디어가 명확하게 드러나도록 짰다. 단계적으로 수준을 높이면서 다양한 문제에 접할 수 있도록 구성하였으니 강화 학습의 어려움과 재미를 모두 느낄 수 있을 것이다.

강화 학습 마스터의 지름길은 기초를 다지는 것!

딥러닝은 매우 핫한 분야여서 하루가 멀다 하고 새로운 알고리즘과 응용 사례가 발표되고 있습니다.
엄청난 발전 속도에 따라 관련 기술과 서비스도 빠르게 진화해서, 이전에는 유행이었던 것들이 지금은 사라지기도 합니다. 하지만 한편으로는 변하지 않고 전해져 내려오는 것도 있죠. 이 책에서는 배우는 지식이 바로 그 변하지 않는 것입니다.

강화 학습의 기초를 이루는 아이디어와 기술은 예나 지금이나 변함이 없습니다. 최신 알고리즘도 오래전부터 존재해온 아이디어를 토대로 합니다. 강화 학습의 기본 원리, 마르코프 결정 과정, 벨만 방정식, Q 러닝, 신경망 등과 같은 주제는 앞으로도 변함없이 중요하게 여겨질 것입니다. 따라서 현재의 강화 학습, 나아가 심층 강화 학습까지 이해하려면 강화 학습의 기초부터 차근차근 학습하는 것이 오히려 지름길입니다.

파이썬과 수학에 대한 기초만 있다면 읽을 수 있도록 수식 기호 하나하나, 코드 한 줄 한 줄 친절히 설명합니다. 이 책으로 강화 학습의 기초를 제대로 배우고 ‘변하지 않는 것’의 아름다움을 맛보기 바랍니다. 여러분 곁에 포스가 함께 하기를…

대상 독자

강화 학습의 원리를 제대로 배우고자 하는 독자
딥러닝을 더 깊게 이해하고 싶은 개발자
파이썬 지식이 있으며 딥러닝과 강화 학습에 흥미가 있는 데이터 과학 입문자

주요 내용

여러 후보 가운데 가장 좋은 것을 순차적으로 찾는 '밴디트 문제' 풀어보기(1장)
일반적인 강화 학습 문제를 ‘마르코프 결정 과정’으로 정의하기(2장)
마르코프 결정 과정에서 최적의 답을 찾는 데 핵심이 되는 ‘벨만 방정식’ 도출하기(3장)
벨만 방정식을 풀기 위한 방법: 동적 프로그래밍(4장), 몬테카를로법(5장), TD법(6장)
딥러닝에 대해 알아보고 딥러닝을 강화 학습 알고리즘에 적용하기(7장)
DQN을 구현하고 DQN을 확장한 방법 알아보기(8장)
DQN과는 다른 접근법: ‘정책 경사법’ 알고리즘(9장)
A3C/DDPG/TRPO/레인보우 알고리즘과 심층 강화 학습(10장)


Information Provided By: : Aladin

Author Introduction

사이토 고키(지은이)

1984년 나가사키 현 쓰시마 출생. 도쿄공업대학교 공학부를 졸업하고 도쿄대학대학원 학제정보학부 석사 과정을 수료했다. 현재는 기업에서 인공지능 관련 연구·개발에 매진하고 있다. 『밑바닥부터 시작하는 딥러닝』 시리즈 집필 외에 『파이썬 인 프랙티스』, 『밑바닥부터 만드는 컴퓨팅 시스템』, 『Building Machine Learning Systems with Python』 등을 일본어로 옮겼다.

개앞맵시(이복연)(옮긴이)

고려대학교 컴퓨터학과를 졸업하고 삼성전자에서 자바 가상 머신, 스마트폰 플랫폼, 메신저 서비스 등을 개발했다. 주 업무 외에 분산 빌드, 지속적 통합, 앱 수명주기 관리 도구, 애자일 등 동료 개발자들에게 실질적인 도움을 주는 일에 관심이 많았다. 그 후 창업전선에 발을 들여 좌충우돌하다가 개발자 커뮤니티에 기여하는 더 나은 방법을 찾아 출판 시장에 뛰어들었다. 『밑바닥부터 시작하는 딥러닝』 시리즈, 『구글 엔지니어는 이렇게 일한다』, 『리팩터링 2판』, 『JVM 밑바닥까지 파헤치기』, 『이펙티브 자바 3판』 등을 번역했다. - 페이스북: facebook.com/dev.loadmap - 개앞맵시에게 번역이란: brunch.co.kr/@wegra/27

Information Provided By: : Aladin

Table of Contents

CHAPTER 1 밴디트 문제
_1.1 머신러닝 분류와 강화 학습
_1.2 밴디트 문제
_1.3 밴디트 알고리즘
_1.4 밴디트 알고리즘 구현
_1.5 비정상 문제
_1.6 정리

CHAPTER 2 마르코프 결정 과정
_2.1 마르코프 결정 과정(MDP)이란?
_2.2 환경과 에이전트를 수식으로
_2.3 MDP의 목표
_2.4 MDP 예제
_2.5 정리

CHAPTER 3 벨만 방정식
_3.1 벨만 방정식 도출
_3.2 벨만 방정식의 예
_3.3 행동 가치 함수(Q 함수)와 벨만 방정식
_3.4 벨만 최적 방정식
_3.5 벨만 최적 방정식의 예
_3.6 정리

CHAPTER 4 동적 프로그래밍
_4.1 동적 프로그래밍과 정책 평가
_4.2 더 큰 문제를 향해
_4.3 정책 반복법
_4.4 정책 반복법 구현
_4.5 가치 반복법
_4.6 정리

CHAPTER 5 몬테카를로법
_5.1 몬테카를로법 기초
_5.2 몬테카를로법으로 정책 평가하기
_5.3 몬테카를로법 구현
_5.4 몬테카를로법으로 정책 제어하기
_5.5 오프-정책과 중요도 샘플링
_5.6 정리

CHAPTER 6 TD법
_6.1 TD법으로 정책 평가하기
_6.2 SARSA
_6.3 오프-정책 SARSA
_6.4 Q 러닝
_6.5 분포 모델과 샘플 모델
_6.6 정리

CHAPTER 7 신경망과 Q 러닝
_7.1 DeZero 기초
_7.2 선형 회귀
_7.3 신경망
_7.4 Q 러닝과 신경망
_7.5 정리

CHAPTER 8 DQN
_8.1 OpenAI Gym
_8.2 DQN의 핵심 기술
_8.3 DQN과 아타리
_8.4 DQN 확장
_8.5 정리

CHAPTER 9 정책 경사법
_9.1 가장 간단한 정책 경사법
_9.2 REINFORCE
_9.3 베이스라인
_9.4 행위자-비평자
_9.5 정책 기반 기법의 장점
_9.6 정리

CHAPTER 10 한 걸음 더
_10.1 심층 강화 학습 알고리즘 분류
_10.2 정책 경사법 계열의 고급 알고리즘
_10.3 DQN 계열의 고급 알고리즘
_10.4 사례 연구
_10.5 심층 강화 학습이 풀어야 할 숙제와 가능성
_10.6 정리

APPENDIX A 오프-정책 몬테카를로법
A.1 오프-정책 몬테카를로법 이론
A.2 오프-정책 몬테카를로법 구현

APPENDIX B n단계 TD법

APPENDIX C Double DQN 이해하기
C.1 DQN에서의 과대적합이란?
C.2 과대적합 해결 방법

APPENDIX D 정책 경사법 증명
D.1 정책 경사법 도출
D.2 베이스라인 도출

New Arrivals Books in Related Fields

Hayles, N. Katherine (2025)