HOME > 상세정보

상세정보

(파이토치로 완성하는) 실전 강화학습 : REINFORCE, A2C, DQN, DDQN, PPO, A3C 이론과 구현을 한번에! (2회 대출)

자료유형
단행본
개인저자
윤성진, 尹聖軫
서명 / 저자사항
(파이토치로 완성하는) 실전 강화학습 : REINFORCE, A2C, DQN, DDQN, PPO, A3C 이론과 구현을 한번에! / 윤성진 지음
발행사항
서울 :   에이콘,   2025  
형태사항
763 p. : 천연색삽화, 도표 ; 24 cm
ISBN
9791194409908
서지주기
참고문헌(p. 752)과 색인수록
000 00000cam c2200205 c 4500
001 000046210464
005 20251020144424
007 ta
008 251020s2025 ulkad b 001c kor
020 ▼a 9791194409908 ▼g 93000
035 ▼a (KERIS)BIB000017309645
040 ▼a 241038 ▼c 241038 ▼d 211009
082 0 4 ▼a 006.31 ▼2 23
085 ▼a 006.31 ▼2 DDCK
090 ▼a 006.31 ▼b 2025z8
100 1 ▼a 윤성진, ▼g 尹聖軫 ▼0 AUTH(211009)174287
245 2 0 ▼a (파이토치로 완성하는) 실전 강화학습 : ▼b REINFORCE, A2C, DQN, DDQN, PPO, A3C 이론과 구현을 한번에! / ▼d 윤성진 지음
260 ▼a 서울 : ▼b 에이콘, ▼c 2025
300 ▼a 763 p. : ▼b 천연색삽화, 도표 ; ▼c 24 cm
504 ▼a 참고문헌(p. 752)과 색인수록
945 ▼a ITMT

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 006.31 2025z8 등록번호 121270476 (2회 대출) 도서상태 대출중 반납예정일 2026-04-13 예약 예약가능 R 서비스 M

컨텐츠정보

책소개

강화학습의 기초부터 고급 주제까지 단계적이고 체계적으로 다루는 책이다. 정책 기반 알고리즘(REINFORCE, PPO)과 액터-크리틱(A2C, A3C), 가치 기반(DQN, DDQN) 기법을 이론과 실습의 균형을 맞춰 설명하며, 개념을 시각화하고 수식을 단계별로 풀어 설명하는 한편 배경 지식을 이해하는 데 도움이 되는 팁을 제공한다.

독자는 알고리즘의 핵심 코드를 직접 구현해 보고 바로 정답을 확인해 볼 수 있고, 강화학습 프레임워크를 설계해 이를 기반으로 다양한 알고리즘을 적용해 보면서 전체 프로세스를 체계적으로 익히게 된다. 또한 각 구성 요소를 깊이 이해한 뒤에는 스스로 알고리즘을 개선·확장할 수 있도록 안내하며, 분산 학습과 같은 최신 기법까지 포함해 실제 실무 환경에 곧바로 적용할 수 있는 실전 지식을 제공한다.

◈ 이 책에서 다루는 내용 ◈

◆ 단계적이고 체계적으로 다루는 강화학습의 기초부터 고급 주제까지
◆ 정책 기반(REINFORCE, PPO), 액터-크리틱(A2C, A3C), 가치 기반(DQN, DDQN) 알고리즘의 이론과 실습을 균형 있게 제공
◆ 개념을 시각화하고 수식을 단계별로 풀어 설명하며 배경 지식을 이해하도록 팁을 제공
◆ 알고리즘의 핵심 코드를 직접 구현해 보고 정답을 즉시 확인해 보는 방식의 실습 구성
◆ 강화학습 프레임워크를 설계하고 이를 기반으로 강화학습 알고리즘을 구현
◆ 강화학습의 주요 구성 요소와 전체 프로세스를 체계적으로 이해할 수 있으며 독자가 알고리즘을 스스로 개선하고 확장할 수 있도록 지원
◆ 분산 학습과 같은 최신 기법을 포함해 실무 환경에 바로 적용할 수 있는 실전 지식 제공

◈ 이 책의 대상 독자 ◈

◆ 심층 강화학습을 이론부터 실습까지 체계적으로 학습하고자 하는 독자
◆ 강화학습 프레임워크의 구조를 이해하고 직접 구현해 보려는 독자
◆ 여러 알고리즘을 구현해 성능을 비교·분석해 보고 싶은 독자
◆ 강화학습을 실제 업무에 적용하고자 하는 개발자 및 연구자
◆ 이공계 학부·대학원생, AI 분야 취업 준비생, 머신러닝 개발자, AI R&D 연구원 등


정보제공 : Aladin

저자소개

윤성진(지은이)

KAIST 전산학과에서 컴퓨터 그래픽스를 전공했으며 LG전자 전자기술원, 티맥스소프트, 액센츄어 등에서 소프트웨어 연구 개발, 미들웨어 및 모듈형 로봇 플랫폼 제품 기획 업무를 수행했다. 인공지능 전문가로서 한국외국어대학교에서 딥러닝, 자료 구조, 데이터 마이닝을 가르치고, ㈜인공지능연구원에서 연구개발을 총괄했다. 현재는 SoftAI의 연구소장으로서 AI 솔루션 연구 개발을 하고 있으며 서울과학종합 대학원대학교 AI첨단대학원 겸직 교수를 역임하고 있다. 대표 저서에는 『Do it! 딥러닝 교과서』(이지스퍼블리싱, 2021), 『파이썬으로 구현하는 로보어드바이저』(에이콘, 2024), 『모두를 위한 컨벡스 최적화』(오픈소스, 2018)가 있다.

정보제공 : Aladin

목차

1부. 강화학습 개요
1장. 강화학습 개요
1.1 강화학습이란?
1.2 강화학습의 응용
1.3 강화학습의 도전 과제

2장. 강화학습 알고리즘
2.1 강화학습의 정의
2.2 강화학습 알고리즘의 종류
2.3 강화학습의 학습 단계
2.4 알고리즘 선택 기준

2부. 강화학습 프레임워크 소개
3장. 강화학습 프레임워크
3.1 강화학습 논리 구성
3.2 강화학습 프레임워크 클래스 구성
3.2.1 공통 클래스와 커스터마이징 클래스

4장. 강화학습 프레임워크 개발 환경
4.1 개발 환경 구성
4.2 OpenGym 소개
4.3 강화학습 프레임워크의 실행

3부. 강화학습 맛보기 정책 기반 방법
5장. 러너
5.1 러너의 구성
5.2 러너의 작동 방식
5.3 Runner 클래스 정의
5.4 Runner 클래스 구현코드

6장. 환경 루프
6.1 환경 루프의 구성
6.2 환경 루프의 작동 방식
6.3 EnvironmentLoop 클래스 정의
6.4 EnvironmentLoop 클래스 구현 코드

7장. 폴리시 그레이디언트
7.1 정책 기반 방법의 유도
7.2 분산 최소화 방안

8장. REINFORCE 알고리즘 구현
8.1 REINFORCE 알고리즘 구성
8.2 REINFORCE 클래스
8.3 REINFORCENetwork 클래스
8.4 REINFORCELearner 클래스
8.5 몬테카를로 리턴
8.6 CartPole-v1 환경
8.7 LunarLanderContinuous-v2 학습

4부. 강화학습 발담그기 정책 기반 방법 성능 개선
9장. 에이전트
9.1 에이전트 구성
9.2 에이전트
9.3 액터
9.4 학습자
9.5 네트워크

10장. 정책
10.1 정책의 종류
10.2 정책의 구성
10.3 Policy 클래스
10.4 StochasticPolicy 클래스
10.5 CategoricalPolicy 클래스
10.6 GaussianPolicy 클래스
10.7 MLP 클래스
10.8 CategoricalPolicyMLP 클래스
10.9 GaussianPolicyMLP 클래스

11장. REINFORCE 베이스라인 적용
11.1 새로운 알고리즘 추가
11.2 REINFORCE 베이스라인 버전 구성
11.3 REINFORCEB 클래스
11.4 REINFORCEBNetwork 클래스
11.5 REINFORCEBLearner 클래스
11.6 CartPole-v1 학습
11.7 LunarLanderContinuous-v2 학습
11.8 새로운 환경 학습

5부. 강화학습 즐기기 액터-크리틱 방법
12장. 액터-크리틱 방법
12.1 가치 함수
12.2 액터-크리틱 방법
12.3 A2C

13장. A2C 알고리즘 구현
13.1 A2C 알고리즘 구성
13.2 A2C 클래스
13.3 A2CNetwork 클래스
13.4 A2CLearner 클래스
13.5 n-스텝 리턴
13.6 GAE
13.7 CartPole-v1 학습
13.8 LunarLanderContinuous-v2 학습

14장. 가치 함수
14.1 가치 함수
14.2 가치 함수의 구성
14.3 ValueFunction 클래스
14.4 StateValueFunction 클래스
14.5 ActionValueFunction 클래스
14.6 ValueFunctionMLP 클래스
14.7 QFunctionMLP 클래스
14.8 QFunctionMLPDQN 클래스

15장. 데이터셋
15.1 데이터셋 구성 방식
15.2 데이터셋의 구성
15.3 버퍼와 버퍼 스키마
15.4 롤아웃 버퍼
15.5 리플레이 버퍼

16장. 환경
16.1 환경의 작동 방식
16.2 환경 구성
16.3 Environment 클래스
16.4 EnvironmentSpec 클래스
16.5 OpenGym 클래스

6부. 강화학습 완성하기 가치 기반 방법
17장. 가치 기반 방법
17.1 가치 기반 방법
17.2 DQN
17.3 더블 DQN(Double DQN)

18장. 가치 기반 방법
18.1 DQN 알고리즘 구성
18.2 DQN 클래스
18.3 DQNNetwork 클래스
18.4 유틸리티 함수
18.5 DQNLearner 클래스
18.6 CartPole-v1 학습

19장. 더블 DQN 알고리즘 구현
19.1 더블 DQN 알고리즘 구성
19.2 DDQN 클래스
19.3 DDQNNetwork 클래스
19.4 DDQNLearner 클래스
19.5 CartPole-v1 학습

7부. 강화학습 성능 개선 분산 강화학습
20장. PPO 알고리즘
20.1 PPO 알고리즘

21장. PPO 알고리즘 구현
21.1 PPO 알고리즘 구성
21.2 PPO 클래스
21.3 PPONetwork 클래스
21.4 PPOLearner 클래스
21.5 CartPole-v1 학습
21.6 LunarLanderContinuous-v2 학습
21.7 AntBulletEnv-v0 학습

22장. 다중 환경 러너
22.1 A2C와 A3C
22.2 다중 환경 러너의 구성
22.3 MultiEnvRunner 클래스
22.4 MultiEnvAsyncRunner 클래스
22.5 다중 환경 성능 확인
22.6 Ray 소개

관련분야 신착자료

Dyer-Witheford, Nick (2026)
양성봉 (2025)