HOME > 상세정보

상세정보

기초 강화학습 (3회 대출)

자료유형
단행본
개인저자
이동환
서명 / 저자사항
기초 강화학습 = Fundamentals of reinforcement learning / 이동환 저
발행사항
남양주 :   가우스,   2025  
형태사항
315 p. : 천연색삽화 ; 24 cm
ISBN
9791199117105
000 00000cam c2200205 c 4500
001 000046200499
005 20250515134612
007 ta
008 250514s2025 ggka 000c kor
020 ▼a 9791199117105 ▼g 93000
035 ▼a (KERIS)BIB000017227275
040 ▼a 245011 ▼c 245011 ▼d 211009
082 0 4 ▼a 006.31 ▼2 23
085 ▼a 006.31 ▼2 DDCK
090 ▼a 006.31 ▼b 2025z3
100 1 ▼a 이동환 ▼0 AUTH(211009)169510
245 1 0 ▼a 기초 강화학습 = ▼x Fundamentals of reinforcement learning / ▼d 이동환 저
246 1 4 ▼a 수학으로 이해하는 기초강화학습
260 ▼a 남양주 : ▼b 가우스, ▼c 2025
300 ▼a 315 p. : ▼b 천연색삽화 ; ▼c 24 cm
945 ▼a ITMT

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 006.31 2025z3 등록번호 121269309 (3회 대출) 도서상태 대출가능 반납예정일 예약 서비스 B M

컨텐츠정보

책소개

수학을 바탕으로 강화학습의 기초와 원리를 체계적으로 설명하며, 수학적 기반을 통해 강화학습을 깊이 이해하고자 하는 독자를 위한 입문서이다. 대상 독자는 수학에 관심이 있는 이공계 학부생 및 대학원생, 그리고 강화학습을 활용하려는 수학적 소양을 갖춘 실무 엔지니어이다. 최신 기법보다는 이를 이해하기 위한 고전적인 내용을 중심으로 하며, 저자만의 독창적인 해석과 설명이 담겨 있다.

이 책은 강화학습의 기초부터 탄탄한 수학적 원리를 통해 알고리즘의 핵심을 깊이 있게 파헤치는 작품입니다. 강화학습에 처음 입문하는 독자부터 수학적 배경을 갖춘 이공계 학생 및 실무 엔지니어에 이르기까지, 다양한 계층의 독자들이 체계적인 이론과 실습을 통해 인공지능의 근간을 다질 수 있도록 돕습니다.
저자는 최신 기법보다도 본질적인 고전 이론에 집중하여, 독자들이 강화학습의 기반 원리를 명확히 이해할 수 있도록 안내합니다. 복잡한 수학적 개념들을 친절한 해설과 예제를 통해 풀어내며, 이를 통해 단순 암기가 아닌 원리의 체득을 유도합니다. 또한, 독자만의 독창적인 시각을 제시하여 기존의 틀을 벗어난 새로운 통찰력을 제공합니다.
이 책은 단순한 기술서적을 넘어, 인공지능 분야에서 필수적인 수학적 사고와 논리적 분석 능력을 기르고자 하는 이들에게 꼭 필요한 길잡이 역할을 할 것입니다. 강력한 이론적 토대와 함께 실전 적용 능력을 높이고자 하는 모든 분들께 자신 있게 추천합니다.


정보제공 : Aladin

저자소개

이동환(지은이)

2025년 현재 현재 한국과학기술원 전기 및 전자공학과 교수이며 강화학습 및 인공지능 분야를 연구하고 있습니다. 미국 Purdue에서 수학과 석사 및 전기 및 컴퓨터공학과에서 박사학위를 받고 박사후에는 University of Illinois, Urbana-Champaign에서 포스트닥 연구원으로 일했습니다.

정보제공 : Aladin

목차

1. 마르코프 의사결정과정 (Markov decision process)
1-1. 마르코프 의사결정과정 (Markov decision process)
1-2. 상태전이분포 (state transition probability)
1-3. 정책 (policy)
1-4. 보상 (reward)
1-5. 상태전이도표 (state transition diagram)
1-6. 에피소드 (episode)
1-7. 반환값 (return)
1-8. 목적함수 (objective function) 및 정책의 순위
1-9. 최적정책 (optimal policy)
1-10. 마르코프 의사결정문제 (Markov decision problem)
1-11. 정상상태분포 (stationary state distribution)
1-12 온폴리시 분포 (on-policy distribution)

2. 가치함수와 Q함수 (value function and Q-function)
2-1. 가치함수 (value function)
2-2. Q함수 (Q-function)
2-3. 여러가지 중요한 관계식들
2-4. 이점함수 (advantage function)
2-5. 정책의 순위와 가치함수의 관계

3. 벨만등식과 벨만연산자 (Bellman equation and Bellman operator)
3-1. 연산자 (operator)
3-2. 벨만등식 (Bellman equation)
3-3. V-벨만등식 (V-Bellman equation)
3-4. Q-벨만등식 (Q-Bellman equation)
3-5. 최적 V-벨만등식 (optimal V-Bellman equation)
3-6. 최적 Q-벨만등식 (optimal Q -Bellman equation)

4. 동적계획법 (dynamic programming, DP)
4-1. 정책반복 (policy iteration, PI)
4-2. 최적 가치함수와 최적정책의 관계
4-3. 가치반복 (value iteration, VI)

5. 수학적 배경지식
5-1. 최적화 (optimization)
5-2. 경사하강법 또는 그레디언트 디센트 (gradient descent method)
5-3. 확률적 경사하강법 또는 확률적 그레디언트 디센트 (stochastic gradient descent method, SGD)
5-4. 회기문제 (regression problem)

6. 몬테카를로 학습 (Monte Calro learning, MC learning)
6-1. 강화학습이란?
6-2. 확률적 근사 (stochastic approximation)
6-3. 일괄처리방식 MC추정 (batch Monte Calro prediction, batch MC prediction)
6-4. MC추정에서 탐색문제 (exploration issue in MC prediction)
6-5. 순차처리방식 MC추정 (recursive Monte Calro prediction, recursive MC prediction)
6-6. 순차처리방식 MC추정의 회기문제 및 그레디언트 (regression and gradient)관점
6-7. Q함수 추정을 위한MC추정 (MC prediction for Q-function estimation)
6-8. MC추정에서 Q함수 추정시 발생하는 탐색문제
6-9. 함수 근사화기반 MC추정
6-10. 온폴리시 (on-policy) vs 오프폴리시 (off-policy) 학습 (정책평가시)
6-11. MC제어 알고리즘 (MC control)
6-12. 온폴리시 (on-policy) vs 오프폴리시 (off-policy) 학습 (최적정책설계시)

7. TD학습 (temporal difference learning, TD learning)
7-1. TD학습 개요 (introduction to TD learning)
7-2. TD추정 (temporal difference prediction, TD prediction)
7-3. TD추정의 직관적 이해
7-4. TD추정의 회기문제 및 확률적 그레디언트 관점
7-5. TD추정의 동적계획법 관점
7-6. 함수근사를 사용한 TD추정
7-7. 오프폴리시 TD추정
7-8. TD추정의 탐색문제
7-9. 잔차 학습법 (residual method)과 중복 샘플링 문제 (double sampling issue)
7-10. Q함수를 위한 TD추정 (SARSA)
7-11. 함수근사화 기반 SARSA 및 오프폴리시 SARSA
7-12. 기대값 SARSA (expected SARSA)
7-13. SARSA 제어 (SARSA control)
7-14 기대값 SARSA 제어 (expected SARSA control)

8. Q학습 (Q-learning)
8-1. Q학습 개요 (introduction to Q-learning)
8-2. Q학습의 MC학습기반 해석
8-3. Q학습의 회귀문제 관점
8-4. Q학습의 동적계획법 관점
8-5. 함수근사화를 이용한 Q학습
8-6. Q학습의 과대평가문제 (overestimation issue)
8-7. 더블 Q학습 (double Q-learning)
8-8. 잔차 학습법 (residual method)과 중복 샘플링 문제 (double sampling issue)
8-9. 심층 Q학습 (deep Q-learning 또는 deep Q-network, DQN)
8-10. 심층 더블 Q학습 (deep double Q-learning 또는 deep double Q-network, D2QN)

9. 정책 그레디언트 (Policy gradient, PG)
9-1. 정책 그레디언트 정리 (policy gradient theorem)
9-2. 정책 그레디언트의 확률적 근사화기법
9-3. 정책 그레디언트 알고리즘 (policy gradient algorithm)
9-4. 정책함수 매개변수화 (policy parameterization)
9-5. 정책 그레디언트 알고리즘의 직관적 이해
9-6. 기준선 (baseline) 기법

10. 행위자-비평자 (actor-critic) 알고리즘
10-1. Q함수 기반 행위자-비평자 (Q actor-critic) 알고리즘
10-2. 이점함수 기반 행위자-비평자 (advantage actor-critic) 알고리즘
10-3. 연속적인 행동공간에서 정책 그레디언트 (policy gradient with continuous action-space)
10-4. 확정적 정책 그레디언트 (deterministic policy gradient, DPG)
10-5. 심층 확정적 정책 그레디언트 (deep deterministic policy gradient, DDPG)


정보제공 : Aladin

관련분야 신착자료

Hayles, N. Katherine (2025)