HOME > 상세정보

상세정보

Stable Baselines를 이용한 강화학습 (2회 대출)

자료유형
단행본
개인저자
박유성, 朴裕聖, 1958-
서명 / 저자사항
Stable Baselines를 이용한 강화학습 / 박유성 지음
발행사항
파주 :   자유아카데미,   2021  
형태사항
xi, 300 p. : 삽화(일부천연색) ; 26 cm
ISBN
9791158083137
일반주기
부록: 강화학습 알고리즘  
서지주기
참고문헌(p. 289-292)과 색인수록
000 00000cam c2200205 c 4500
001 000046091972
005 20210910141431
007 ta
008 210910s2021 ggka b 001c kor
020 ▼a 9791158083137 ▼g 93000
035 ▼a (KERIS)BIB000015927905
040 ▼a 241008 ▼c 241008 ▼d 211009
082 0 4 ▼a 006.31 ▼2 23
085 ▼a 006.31 ▼2 DDCK
090 ▼a 006.31 ▼b 2021z13
100 1 ▼a 박유성, ▼g 朴裕聖, ▼d 1958- ▼0 AUTH(211009)26443
245 1 0 ▼a Stable Baselines를 이용한 강화학습 / ▼d 박유성 지음
260 ▼a 파주 : ▼b 자유아카데미, ▼c 2021
300 ▼a xi, 300 p. : ▼b 삽화(일부천연색) ; ▼c 26 cm
500 ▼a 부록: 강화학습 알고리즘
504 ▼a 참고문헌(p. 289-292)과 색인수록
536 ▼a 본 연구는 고려대학교 연구비에 의해 수행되었음 ▼g (K2112211)
945 ▼a KLPA

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.31 2021z13 등록번호 111853089 도서상태 대출중 반납예정일 2021-11-17 예약 예약가능 R 서비스 M

컨텐츠정보

책소개

강화학습의 작동원리를 toy example을 통해 쉽게 이해할 수 있도록 집필한 교재다. MDP와 Bellman 방정식을 일일이 구체적 수치로 계산한 후 통계적.수학적 수식으로 재표현하여 수식의 의미를 이해할 수 있도록 구성하였다. Stable Baselines는 현재까지 총 15개의 강화학습법을 실행할 수 있다. 여기에 10개의 강화학습을 추가하여 25개의 강화학습법을 수록하였다.

강화학습 발표 논문을 기반으로 강화학습법의 장단점과 원리를 충실하게 반영하였지만 상당한 수준의 수학적 배경을 요구하는 이론적 증명은 생략하였다. 코딩에 능숙한 독자가 직접 프로그래밍이 가능할 만큼 상세한 알고리즘을 제공한다. Stable Baselines의 사용법을 최대한 자세하게 수록하였고 출력 결과에 대한 해설도 충실하게 작성하였다.

저자는 코딩에 능숙하지 못하지만 파이썬 라이브러리 sklearn 덕분에 큰 어려움 없이 머신러닝을 이해하고 실습할 수 있었으며 Keras나 Pytorch라는 high level 프로그래밍 언어 덕분에 딥러닝을 이해하고 활용할 수 있었다. 강화학습(reinforcement learning)은 인공지능에서 가장 코딩이 복잡하고 난해하여 배우기 어려우나 응용분야가 게임, 금융, 자율자동차, 자율주차, 로봇 등 무궁무진하며, 발전 가능성이 매우 높은 분야이다. 딥러닝과 통계적 추정 방법을 근간으로 하는 강화학습은 40년 이상 통계학만 연구해온 저자에게 정적인 통계학을 동적인 통계학으로 응용할 수 있겠다는 설렘과 호기심으로 다가왔다.
지난 3년 동안 강화학습에 관련된 책들을 모두 구매하여 마치 수험생처럼 공부 하였지만 머신러닝이나 딥러닝처럼 이해하는 것이 쉽지는 않았다. 이는 이론 위주의 책이든 응용 위주의 책이든 관계없이 강화학습의 핵심 이론인 Markov Decision Process(MDP)와 Bellman 방정식을 명료하게 설명한 책이 없었고 책마다 이에 대한 설명이 다른 경우가 많아 혼란스러웠던 것이 한 요인이었다. 그러나 가장 큰 이유는 강화학습 책들 대부분이 코드 작성에 집중하여 저자에게는 넘을 수 없는 코딩기술 배우기로 인식되었기 때문이다. 저자는 programmer보다는 modeller를 지향하기 때문에 먼저 강화학습의 이론적 근간인 MDP와 Bellman 방정식을 명확하게 이해하고 강화학습의 수많은 알고리즘의 원리와 구조, 목적 등을 확실히 정립한 후, 실습은 인터넷 검색을 통해 이미 구현되어있는 프로그램으로 실행해도 된다는 생각을 가지고 있다.
이러한 생각을 토대로 강의안을 준비하는 중 2020년 12월 말에 Stable Baselines라는 강화학습 라이브러리가 있다는 사실을 알게 되었다. Stable Baselines는 최근까지 발표된 대표적인 강화학습 알고리즘들을 단 몇 줄의 명령어로 실행할 수 있을 뿐만 아니라 다양한 옵션을 이용하여 맞춤형 강화학습도 어렵지 않게 만들수 있는 라이브러리이다. 비록 해설집(documentation)이 충분하지 않아 사용법과 출력 결과 해석에 어려움이 있었지만 소스코드와 try and error를 통해 modeller로서의 강화학습 접근방식을 충족시키기에 충분하였다.
저자처럼 코딩에 능숙하지 못하지만, 강화학습 응용에 관심 있는 사람에게 도움이 될 것이라는 생각과 함께 머신러닝과 딥러닝 책을 출간한 저자의 입장에서 강화학습으로 인공지능 시리즈를 완성하고 싶은 개인적인 욕심도 이 책을 쓰게 된 동기가 되었다.
이 책은 강화학습의 작동원리를 toy example을 통해 쉽게 이해할 수 있도록 집필되었으며, MDP와 Bellman 방정식을 일일이 구체적 수치로 계산한 후 통계적·수학적 수식으로 재표현하여 수식의 의미를 이해할 수 있도록 구성하였다. Stable Baselines는 현재까지 총 15개의 강화학습법을 실행할 수 있다. 이 책에는 10개의 강화학습을 추가하여 25개의 강화학습법을 수록하였다. 강화학습 발표 논문을 기반으로 강화학습법의 장단점과 원리를 충실하게 반영하였지만 상당한 수준의 수학적 배경을 요구하는 이론적 증명은 생략하였다. 코딩에 능숙한 독자가 직접 프로그래밍이 가능할 만큼 상세한 알고리즘을 제공하여 강화학습법의 원리와 구조를 충분하게 파악할 수 있도록 하였다. Stable Baselines의 사용법을 최대한 자세하게 수록하였고 출력 결과에 대한 해설도 충실하게 작성하였다. Stable Baselines에서 제공하지 않은 강화학습 중 일부는 해설과 함께 프로그램을 제공하였고 일부는 프로그램을 download 할 수 있는 주소를 제공하였다.
강화학습은 이론적으로 계층적 구조를 가지고 있다. 근본적으로 모든 강화학습 알고리즘은 MDP와 Bellman 방정식을 기초로 작성되어 있으므로 최근에 개발된 강화학습은 과거의 강화학습에서 개선된 형태라고 보면 된다. 참고할 수 있도록 머리말 마지막 부분에 강화학습 계보도를 실어 두었다. 이 책을 공부하면 자연스럽게 이 계보도를 이해할 수 있도록 책의 차례도 계보도의 순서로 구성하였으며 부록에 따로 실행 알고리즘을 정리해 놓았다. 강화학습의 계보도와 정리된 실행 알고리즘은 강화학습을 비교하고 특성을 파악하는 데 매우 간단하고 유용한 일종의 summary로 활용할 수 있다. 계보도에서 (off)는 해당 강화학습이 off-policy라는 의미이며 별도의 표식이 없는 강화학습은 on-policy 학습법임을 의미한다. 본문을 공부하면 onpolicy와 off-policy를 구분할 수 있겠지만 간단하게 구별하는 방법은 별도의 표본 저장공간으로부터 표본을 뽑아서 policy를 개선하면 이를 off-policy라고 생각하고, 그렇지 않으면 on-policy라고 생각하면 된다.
좋은 책을 위해 최선을 다했지만 부족한 부분이 있을 수 있다. 이 점은 양해를 바라며, 책에 나오는 실습 프로그램과 출간 후 나올 수 있는 수정사항 등은 자유아카데미 홈페이지(www.freeaca.com) 자료실을 통해 제공할 예정이니 참조하기를 바란다.


정보제공 : Aladin

저자소개

박유성(지은이)

고려대학교 정경대학 통계학과 졸업 고려대학교 대학원 석사과정 졸업(통계학 전공) 미국 조지아대학교 대학원 졸업(통계학 박사) 현재 고려대학교 정경대학 통계학과 교수

정보제공 : Aladin

목차

1장 강화학습의 이해
1.1 3×3 환경에서의 강화학습
1.2 MDP(Markov Decision Process)
1.3 가치함수와 Q 함수

2장 Bellman 방정식과 다이나믹 프로그래밍
2.1 Bellman 방정식
2.2 DP(Dynamic Programming)
2.3 DP 예제

3장 OpenAI Gym

4장 몬테카를로 추정방법
4.1 가치함수 및 Q 함수의 몬테카를로 추정
4.2 최적 policy 몬테카를로 추정
4.3 Blackjack 게임의 몬테카를로 학습
4.4 off-policy 몬테카를로

5장 TD와 action의 탐색
5.1 SARSA와 Q-학습
5.2 SARSA와 Q-학습의 응용
5.3 Action의 탐색과 선택

6장 Deep Q networks
6.1 DQN 모형
6.2 DQN의 응용
6.3 Double DQN
6.4 가중치를 가진 replay buffer
6.5 Dueling DQN

7장 정책기반 강화학습
7.1 Policy Gradient의 도출과 의미
7.2 정책기반 강화학습 알고리즘
7.3 REINFORCE의 응용

8장 Actor-Critic 강화학습
8.1 A2C
8.2 비동시성 A2C(A3C)
8.3 ACER

9장 Stable Baselines
9.1 DQN의 적용과 응용
9.2 A2C, A3C, ACER의 적용과 응용
9.3 Stable Baselines에서 지원하는 action space와 policy 아키텍처
9.4 맞춤형 Policy 만들기
9.5 Multiprocessing과 맞춤형 환경
9.6 시스템 주식거래를 위한 주식시장 환경구축

10장 TRPO, PPO, ACKTR
10.1 TRPO
10.2 PPO
10.3 ACKTR
10.4 Stable Baselines의 적용

11장 DDPG, TD3, SAC
11.1 DDPG
11.2 TD3
11.3 SAC
11.4 DDPG, TD3, SAC의 응용
11.5 HER

12장 모방학습과 역강화학습
12.1 DAgger
12.2 DQfD
12.3 IRL
12.4 GAIL
12.5 사전학습과 GAIL의 적용

13장 확률분포 강화학습
13.1 범주형 DQN
13.2 QR-DQN
13.3 D4PG

부록
1. 몬테카를로 정책 반복법
2. off-policy 몬테카를로 알고리즘
3. SARSA 알고리즘
4. Q-학습 알고리즘
5. DQN 알고리즘
6. REINFORCE 알고리즘
7. policy gradient with baseline 알고리즘
8. A2C 알고리즘
9. TRPO 알고리즘
10. PPO-clipped 알고리즘
11. PPO-penalty 알고리즘
12. DDPG 알고리즘
13. TD3 알고리즘
14. SAC 알고리즘
15. DAgger 알고리즘
16. DQfD 알고리즘
17. IRL 알고리즘
18. 범주형 DQN 알고리즘
19. D4PG 알고리즘

참고문헌

찾아보기

관련분야 신착자료

National Academies of Sciences, Engineering, and Medicine (U.S.) (2020)
Cartwright, Hugh M. (2021)
한국소프트웨어기술인협회. 빅데이터전략연구소 (2021)