| 000 | 00000cam c2200205 c 4500 | |
| 001 | 000046210464 | |
| 005 | 20251020144424 | |
| 007 | ta | |
| 008 | 251020s2025 ulkad b 001c kor | |
| 020 | ▼a 9791194409908 ▼g 93000 | |
| 035 | ▼a (KERIS)BIB000017309645 | |
| 040 | ▼a 241038 ▼c 241038 ▼d 211009 | |
| 082 | 0 4 | ▼a 006.31 ▼2 23 |
| 085 | ▼a 006.31 ▼2 DDCK | |
| 090 | ▼a 006.31 ▼b 2025z8 | |
| 100 | 1 | ▼a 윤성진, ▼g 尹聖軫 ▼0 AUTH(211009)174287 |
| 245 | 2 0 | ▼a (파이토치로 완성하는) 실전 강화학습 : ▼b REINFORCE, A2C, DQN, DDQN, PPO, A3C 이론과 구현을 한번에! / ▼d 윤성진 지음 |
| 260 | ▼a 서울 : ▼b 에이콘, ▼c 2025 | |
| 300 | ▼a 763 p. : ▼b 천연색삽화, 도표 ; ▼c 24 cm | |
| 504 | ▼a 참고문헌(p. 752)과 색인수록 | |
| 945 | ▼a ITMT |
소장정보
| No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
|---|---|---|---|---|---|---|---|
| No. 1 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.31 2025z8 | 등록번호 121270476 (2회 대출) | 도서상태 대출중 | 반납예정일 2026-04-13 | 예약 예약가능 | 서비스 |
컨텐츠정보
책소개
강화학습의 기초부터 고급 주제까지 단계적이고 체계적으로 다루는 책이다. 정책 기반 알고리즘(REINFORCE, PPO)과 액터-크리틱(A2C, A3C), 가치 기반(DQN, DDQN) 기법을 이론과 실습의 균형을 맞춰 설명하며, 개념을 시각화하고 수식을 단계별로 풀어 설명하는 한편 배경 지식을 이해하는 데 도움이 되는 팁을 제공한다.
독자는 알고리즘의 핵심 코드를 직접 구현해 보고 바로 정답을 확인해 볼 수 있고, 강화학습 프레임워크를 설계해 이를 기반으로 다양한 알고리즘을 적용해 보면서 전체 프로세스를 체계적으로 익히게 된다. 또한 각 구성 요소를 깊이 이해한 뒤에는 스스로 알고리즘을 개선·확장할 수 있도록 안내하며, 분산 학습과 같은 최신 기법까지 포함해 실제 실무 환경에 곧바로 적용할 수 있는 실전 지식을 제공한다.
◈ 이 책에서 다루는 내용 ◈
◆ 단계적이고 체계적으로 다루는 강화학습의 기초부터 고급 주제까지
◆ 정책 기반(REINFORCE, PPO), 액터-크리틱(A2C, A3C), 가치 기반(DQN, DDQN) 알고리즘의 이론과 실습을 균형 있게 제공
◆ 개념을 시각화하고 수식을 단계별로 풀어 설명하며 배경 지식을 이해하도록 팁을 제공
◆ 알고리즘의 핵심 코드를 직접 구현해 보고 정답을 즉시 확인해 보는 방식의 실습 구성
◆ 강화학습 프레임워크를 설계하고 이를 기반으로 강화학습 알고리즘을 구현
◆ 강화학습의 주요 구성 요소와 전체 프로세스를 체계적으로 이해할 수 있으며 독자가 알고리즘을 스스로 개선하고 확장할 수 있도록 지원
◆ 분산 학습과 같은 최신 기법을 포함해 실무 환경에 바로 적용할 수 있는 실전 지식 제공
◈ 이 책의 대상 독자 ◈
◆ 심층 강화학습을 이론부터 실습까지 체계적으로 학습하고자 하는 독자
◆ 강화학습 프레임워크의 구조를 이해하고 직접 구현해 보려는 독자
◆ 여러 알고리즘을 구현해 성능을 비교·분석해 보고 싶은 독자
◆ 강화학습을 실제 업무에 적용하고자 하는 개발자 및 연구자
◆ 이공계 학부·대학원생, AI 분야 취업 준비생, 머신러닝 개발자, AI R&D 연구원 등
정보제공 :
저자소개
윤성진(지은이)
KAIST 전산학과에서 컴퓨터 그래픽스를 전공했으며 LG전자 전자기술원, 티맥스소프트, 액센츄어 등에서 소프트웨어 연구 개발, 미들웨어 및 모듈형 로봇 플랫폼 제품 기획 업무를 수행했다. 인공지능 전문가로서 한국외국어대학교에서 딥러닝, 자료 구조, 데이터 마이닝을 가르치고, ㈜인공지능연구원에서 연구개발을 총괄했다. 현재는 SoftAI의 연구소장으로서 AI 솔루션 연구 개발을 하고 있으며 서울과학종합 대학원대학교 AI첨단대학원 겸직 교수를 역임하고 있다. 대표 저서에는 『Do it! 딥러닝 교과서』(이지스퍼블리싱, 2021), 『파이썬으로 구현하는 로보어드바이저』(에이콘, 2024), 『모두를 위한 컨벡스 최적화』(오픈소스, 2018)가 있다.
목차
1부. 강화학습 개요 1장. 강화학습 개요 1.1 강화학습이란? 1.2 강화학습의 응용 1.3 강화학습의 도전 과제 2장. 강화학습 알고리즘 2.1 강화학습의 정의 2.2 강화학습 알고리즘의 종류 2.3 강화학습의 학습 단계 2.4 알고리즘 선택 기준 2부. 강화학습 프레임워크 소개 3장. 강화학습 프레임워크 3.1 강화학습 논리 구성 3.2 강화학습 프레임워크 클래스 구성 3.2.1 공통 클래스와 커스터마이징 클래스 4장. 강화학습 프레임워크 개발 환경 4.1 개발 환경 구성 4.2 OpenGym 소개 4.3 강화학습 프레임워크의 실행 3부. 강화학습 맛보기 정책 기반 방법 5장. 러너 5.1 러너의 구성 5.2 러너의 작동 방식 5.3 Runner 클래스 정의 5.4 Runner 클래스 구현코드 6장. 환경 루프 6.1 환경 루프의 구성 6.2 환경 루프의 작동 방식 6.3 EnvironmentLoop 클래스 정의 6.4 EnvironmentLoop 클래스 구현 코드 7장. 폴리시 그레이디언트 7.1 정책 기반 방법의 유도 7.2 분산 최소화 방안 8장. REINFORCE 알고리즘 구현 8.1 REINFORCE 알고리즘 구성 8.2 REINFORCE 클래스 8.3 REINFORCENetwork 클래스 8.4 REINFORCELearner 클래스 8.5 몬테카를로 리턴 8.6 CartPole-v1 환경 8.7 LunarLanderContinuous-v2 학습 4부. 강화학습 발담그기 정책 기반 방법 성능 개선 9장. 에이전트 9.1 에이전트 구성 9.2 에이전트 9.3 액터 9.4 학습자 9.5 네트워크 10장. 정책 10.1 정책의 종류 10.2 정책의 구성 10.3 Policy 클래스 10.4 StochasticPolicy 클래스 10.5 CategoricalPolicy 클래스 10.6 GaussianPolicy 클래스 10.7 MLP 클래스 10.8 CategoricalPolicyMLP 클래스 10.9 GaussianPolicyMLP 클래스 11장. REINFORCE 베이스라인 적용 11.1 새로운 알고리즘 추가 11.2 REINFORCE 베이스라인 버전 구성 11.3 REINFORCEB 클래스 11.4 REINFORCEBNetwork 클래스 11.5 REINFORCEBLearner 클래스 11.6 CartPole-v1 학습 11.7 LunarLanderContinuous-v2 학습 11.8 새로운 환경 학습 5부. 강화학습 즐기기 액터-크리틱 방법 12장. 액터-크리틱 방법 12.1 가치 함수 12.2 액터-크리틱 방법 12.3 A2C 13장. A2C 알고리즘 구현 13.1 A2C 알고리즘 구성 13.2 A2C 클래스 13.3 A2CNetwork 클래스 13.4 A2CLearner 클래스 13.5 n-스텝 리턴 13.6 GAE 13.7 CartPole-v1 학습 13.8 LunarLanderContinuous-v2 학습 14장. 가치 함수 14.1 가치 함수 14.2 가치 함수의 구성 14.3 ValueFunction 클래스 14.4 StateValueFunction 클래스 14.5 ActionValueFunction 클래스 14.6 ValueFunctionMLP 클래스 14.7 QFunctionMLP 클래스 14.8 QFunctionMLPDQN 클래스 15장. 데이터셋 15.1 데이터셋 구성 방식 15.2 데이터셋의 구성 15.3 버퍼와 버퍼 스키마 15.4 롤아웃 버퍼 15.5 리플레이 버퍼 16장. 환경 16.1 환경의 작동 방식 16.2 환경 구성 16.3 Environment 클래스 16.4 EnvironmentSpec 클래스 16.5 OpenGym 클래스 6부. 강화학습 완성하기 가치 기반 방법 17장. 가치 기반 방법 17.1 가치 기반 방법 17.2 DQN 17.3 더블 DQN(Double DQN) 18장. 가치 기반 방법 18.1 DQN 알고리즘 구성 18.2 DQN 클래스 18.3 DQNNetwork 클래스 18.4 유틸리티 함수 18.5 DQNLearner 클래스 18.6 CartPole-v1 학습 19장. 더블 DQN 알고리즘 구현 19.1 더블 DQN 알고리즘 구성 19.2 DDQN 클래스 19.3 DDQNNetwork 클래스 19.4 DDQNLearner 클래스 19.5 CartPole-v1 학습 7부. 강화학습 성능 개선 분산 강화학습 20장. PPO 알고리즘 20.1 PPO 알고리즘 21장. PPO 알고리즘 구현 21.1 PPO 알고리즘 구성 21.2 PPO 클래스 21.3 PPONetwork 클래스 21.4 PPOLearner 클래스 21.5 CartPole-v1 학습 21.6 LunarLanderContinuous-v2 학습 21.7 AntBulletEnv-v0 학습 22장. 다중 환경 러너 22.1 A2C와 A3C 22.2 다중 환경 러너의 구성 22.3 MultiEnvRunner 클래스 22.4 MultiEnvAsyncRunner 클래스 22.5 다중 환경 성능 확인 22.6 Ray 소개



