HOME > 상세정보

상세정보

State evaluation-based monte carlo tree search for dealing with continuous spaces with uncertainty

State evaluation-based monte carlo tree search for dealing with continuous spaces with uncertainty

자료유형
학위논문
개인저자
김병도 金炳衜
서명 / 저자사항
State evaluation-based monte carlo tree search for dealing with continuous spaces with uncertainty / 金炳衜
발행사항
Seoul :   Graduate School, Korea Unversity,   2019  
형태사항
22장 : 삽화, 도표 ; 26 cm
기타형태 저록
State Evaluation-based Monte Carlo Tree Search for Dealing with Continuous Spaces with Uncertainty   (DCOLL211009)000000083454  
학위논문주기
학위논문(석사)-- 고려대학교 대학원, 컴퓨터·전파통신공학과, 2019. 2
학과코드
0510   6D36   1091  
일반주기
지도교수: 이성환  
서지주기
참고문헌: 장 19-22
이용가능한 다른형태자료
PDF 파일로도 이용가능;   Requires PDF file reader(application/pdf)  
비통제주제어
MCTS, Continuous spaces, Uncertainty,,
000 00000nam c2200205 c 4500
001 000045978884
005 20230526133416
007 ta
008 181231s2019 ulkad bmAC 000c eng
040 ▼a 211009 ▼c 211009 ▼d 211009
041 1 ▼a eng ▼h kor
085 0 ▼a 0510 ▼2 KDCP
090 ▼a 0510 ▼b 6D36 ▼c 1091
100 1 ▼a 김병도 ▼g 金炳衜
245 1 0 ▼a State evaluation-based monte carlo tree search for dealing with continuous spaces with uncertainty / ▼d 金炳衜
260 ▼a Seoul : ▼b Graduate School, Korea Unversity, ▼c 2019
300 ▼a 22장 : ▼b 삽화, 도표 ; ▼c 26 cm
500 ▼a 지도교수: 이성환
502 0 ▼a 학위논문(석사)-- ▼b 고려대학교 대학원, ▼c 컴퓨터·전파통신공학과, ▼d 2019. 2
504 ▼a 참고문헌: 장 19-22
530 ▼a PDF 파일로도 이용가능; ▼c Requires PDF file reader(application/pdf)
653 ▼a MCTS ▼a Continuous spaces ▼a Uncertainty
776 0 ▼t State Evaluation-based Monte Carlo Tree Search for Dealing with Continuous Spaces with Uncertainty ▼w (DCOLL211009)000000083454
900 1 0 ▼a Kim, Byung-do, ▼e
900 1 0 ▼a 이성환, ▼g 李晟瑍, ▼d 1962-, ▼e 지도교수 ▼0 AUTH(211009)151678
945 ▼a KLPA

전자정보

No. 원문명 서비스
1
State evaluation-based monte carlo tree search for dealing with continuous spaces with uncertainty (23회 열람)
PDF 초록 목차

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/학위논문서고/ 청구기호 0510 6D36 1091 등록번호 123060841 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 2 소장처 과학도서관/학위논문서고/ 청구기호 0510 6D36 1091 등록번호 123060842 도서상태 대출가능 반납예정일 예약 서비스 B M

컨텐츠정보

초록

행동의 불확실성이 존재하는 연속 행동 공간은 의사 결정 알고리즘을 활용하
여 최적의 전략을 수립하기 어려운 도메인이다. 기존의 대다수의 MCTS 방법
론들은 이러한 도메인에서 낮은 탐색 성능을 보였다. 본 논문은 이러한 도메인
의 한 종류인 컬링에서 최적의 전략을 수립하는 탐색 알고리즘을 제안하는 것
을 목표로 한다. 이를 위해 컬링 경기의 특징이 반영된 평가 함수를 사용하여
스톤 투구의 불확실성 크기와 롤 아웃 시뮬레이션 퀄리티를 추정하는 방법을
적용한 UCT 기반의 탐색 알고리즘을 제안하였다. 실험을 위해 제안하는 각각
의 두 가지 방법론의 적용 여부에 따라 기본 UCT 알고리즘을 포함한 4가지
알고리즘을 준비하였다. 이들 간 대전 결과를 통하여 제안하는 방법론의 성능
을 평가하였다. 제안하는 방법론을 적용하지 않은 UCT가 가장 낮은 승률을 가
졌고 행동의 불확실성과 시뮬레이션 퀄리티 모두를 측정한 UCT_AR이 4가지
탐색 알고리즘 중 가장 높은 승률을 보여주었다. 또한 (우리는) 불확실성이 있
는 연속 공간의 도메인을 고려하여 기존에 제안된 알고리즘인 DPW, KR-UCT
와의 성능 비교를 통해 제안된 알고리즘이 가장 높은 성능을 보임을 확인했다.
이 결과는 본 연구가 불확실성이 있는 연속 행동 공간에서 사용할 수 있는 유
망한 방법론임을 증명한다.

Continuous action spaces in which uncertainty exists are the domain that is difficult to establish optimal strategy by using MCTS algorithm. Most of the existing MCTS variants showed low performance in these domains. This paper aims at proposing a MCTS algorithm to establish an optimal strategy for curling. For this purpose, UCT-based search algorithm is proposed using estimation function reflecting key features of curling game and estimating the size of uncertainty of stone throwing and the quality of rollout simulation. 4 algorithms including the basic UCT are prepared according to whether each of the two proposed methods are applied for the experiment. We evaluate the performance of the proposed methods by performing games between 4 algorithms. Basic UCT without any method applied had the lowest winning rate, and UCT_AR, which estimated both the uncertainty of actions and the simulation quality, showed the highest winning rate among the 4 search algorithms. In addition, we have confirmed that the proposed algorithm shows the best performance by comparing the performance with the DPW and KRUCT algorithms considering the uncertainty of the domain of the continuous space. This result proves that the proposed algorithm performs well in the challenging problem of continuous action space with uncertainty.

목차

1 Introduction 1
2 Related works 5
 2.1 Probabilistic search 5
 2.2 Monte Carlo tree search 6
 2.3 Kernel Regression UCT 7
 2.4 Double Progressive Widening 8
 2.5 Rollout policies with domain knowledge 9
3 Method 10
 3.1 Evaluation functions for curling 10
 3.2 Action Reliability Assessment (ARA) 11
 3.3 Rollout Quality Assessment (RQA) 13
 3.4 Search algorithm for continuous action spaces with uncertainty 15
4 Experiments 16
 4.1 Experimental setting 16
 4.1 Experiments of each proposed method 16
 4.1 Experiments with other algorithms 17
5 Conclusion 19

관련분야 신착자료