HOME > 상세정보

상세정보

강화학습

강화학습 (24회 대출)

자료유형
단행본
개인저자
이영아 정태충, 저
서명 / 저자사항
강화학습 = Reinforcement learning / 이영아, 정태충 지음
발행사항
서울 :   경희대학교 출판국,   2005  
형태사항
152 p. : 삽화 ; 30 cm
ISBN
8982222871
일반주기
부록수록  
서지주기
참고문헌: p. [111]-113
000 00000cam c2200205 c 4500
001 000045246779
005 20170706151707
007 ta
008 051215s2005 ulka b AB 000c kor
020 ▼a 8982222871 ▼g 93560
035 ▼a (KERIS)BIB000010270340
040 ▼a 241008 ▼c 241008 ▼d 244002 ▼d 211009
082 0 4 ▼a 006.31 ▼2 22
085 ▼a 006.31 ▼2 DDCK
090 ▼a 006.31 ▼b 2005
100 1 ▼a 이영아
245 1 0 ▼a 강화학습 = ▼x Reinforcement learning / ▼d 이영아, ▼e 정태충 지음
260 ▼a 서울 : ▼b 경희대학교 출판국, ▼c 2005
300 ▼a 152 p. : ▼b 삽화 ; ▼c 30 cm
500 ▼a 부록수록
504 ▼a 참고문헌: p. [111]-113
536 ▼a 2004학년도 저서출판 특별연구비 지원에 의한 결과물임
700 1 ▼a 정태충, ▼e

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/과학기술실/ 청구기호 006.31 2005 등록번호 151202458 도서상태 대출가능 반납예정일 예약 서비스 C

컨텐츠정보

저자소개

이영아(지은이)

<강화학습>

정보제공 : Aladin

목차


목차
1 강화 학습(Reinforcement Learning)의 정의와 구성 요소 = 7
 1.1 강화학습의 정의 = 7
 1.2 강화학습 문제 = 8
 1.3 강화학습의 구성요소 = 12
2 동적 계획(Dynamic Programming) = 18
 2.1 동적 계획(Dynamic Programming) = 18
 2.2 전략 평가(policy evaluation) = 20
 2.3 전략 개선(Policy Improvement) = 21
 2.4 Policy iteration = 22
 2.5 Value Iteration = 23
3 Temporal Difference 학습 = 30
 3.1 TD 예측(TD Prediction) = 30
 3.2 TD 예측 방법의 장점 = 31
 3.3 SARSA(State-Action-Reward-State-Action) 알고리즘 = 31
 3.4 Q-learning = 33
 3.5 적합 영향 (Eligibility Traces) = 48
 3.6 TD(λ) = 48
 3.7 SARSA(λ) = 49
4 함수 근사(Function Approximation) = 60
 4.1 함수 근사의 개요 = 60
 4.2 함수 근사 방법(Function Approximation Methods) = 61
5 온라인 퍼지 클러스터링을 이용한 학습 속도의 개선 = 85
 5.1 Fuzzy Q-Map의 구조 = 86
 5.2 Fuzzy Q-Map 알고리즘 = 90
 5.3 Fuzzy Q-Map의 장점 = 93
 5.4 Fuzzy Q-Map의 성능 평가 = 94
참고자료 = 109
참고문헌 = 111
부록 A = 114
부록 B = 131


관련분야 신착자료

Deisenroth, Marc Peter (2020)