목차
1 강화 학습(Reinforcement Learning)의 정의와 구성 요소 = 7
1.1 강화학습의 정의 = 7
1.2 강화학습 문제 = 8
1.3 강화학습의 구성요소 = 12
2 동적 계획(Dynamic Programming) = 18
2.1 동적 계획(Dynamic Programming) = 18
2.2 전략 평가(policy evaluation) = 20
2.3 전략 개선(Policy Improvement) = 21
2.4 Policy iteration = 22
2.5 Value Iteration = 23
3 Temporal Difference 학습 = 30
3.1 TD 예측(TD Prediction) = 30
3.2 TD 예측 방법의 장점 = 31
3.3 SARSA(State-Action-Reward-State-Action) 알고리즘 = 31
3.4 Q-learning = 33
3.5 적합 영향 (Eligibility Traces) = 48
3.6 TD(λ) = 48
3.7 SARSA(λ) = 49
4 함수 근사(Function Approximation) = 60
4.1 함수 근사의 개요 = 60
4.2 함수 근사 방법(Function Approximation Methods) = 61
5 온라인 퍼지 클러스터링을 이용한 학습 속도의 개선 = 85
5.1 Fuzzy Q-Map의 구조 = 86
5.2 Fuzzy Q-Map 알고리즘 = 90
5.3 Fuzzy Q-Map의 장점 = 93
5.4 Fuzzy Q-Map의 성능 평가 = 94
참고자료 = 109
참고문헌 = 111
부록 A = 114
부록 B = 131