000 | 00000nam c2200205 c 4500 | |
001 | 000045978884 | |
005 | 20190416153326 | |
007 | ta | |
008 | 181231s2019 ulkad bmAC 000c eng | |
040 | ▼a 211009 ▼c 211009 ▼d 211009 | |
041 | 1 | ▼a eng ▼h kor |
085 | 0 | ▼a 0510 ▼2 KDCP |
090 | ▼a 0510 ▼b 6D36 ▼c 1091 | |
100 | 1 | ▼a 김병도 ▼g 金炳衜 |
245 | 1 0 | ▼a State evaluation-based monte carlo tree search for dealing with continuous spaces with uncertainty / ▼d 金炳衜 |
260 | ▼a Seoul : ▼b Graduate School, Korea Unversity, ▼c 2019 | |
300 | ▼a 22장 : ▼b 삽화, 도표 ; ▼c 26 cm | |
500 | ▼a 지도교수: 이성환 | |
502 | 0 | ▼a 학위논문(석사)-- ▼b 고려대학교 대학원: ▼c 컴퓨터·전파통신공학과, ▼d 2019. 2 |
504 | ▼a 참고문헌: 장 19-22 | |
530 | ▼a PDF 파일로도 이용가능; ▼c Requires PDF file reader(application/pdf) | |
653 | ▼a MCTS ▼a Continuous spaces ▼a Uncertainty | |
776 | 0 | ▼t State Evaluation-based Monte Carlo Tree Search for Dealing with Continuous Spaces with Uncertainty ▼w (DCOLL211009)000000083454 |
900 | 1 0 | ▼a Kim, Byung-do, ▼e 저 |
900 | 1 0 | ▼a 이성환 ▼g 李晟瑍, ▼e 지도교수 |
945 | ▼a KLPA |
Electronic Information
No. | Title | Service |
---|---|---|
1 | State evaluation-based monte carlo tree search for dealing with continuous spaces with uncertainty (22회 열람) |
View PDF Abstract Table of Contents |
Holdings Information
No. | Location | Call Number | Accession No. | Availability | Due Date | Make a Reservation | Service |
---|---|---|---|---|---|---|---|
No. 1 | Location Science & Engineering Library/Stacks(Thesis)/ | Call Number 0510 6D36 1091 | Accession No. 123060841 | Availability Available | Due Date | Make a Reservation | Service |
No. 2 | Location Science & Engineering Library/Stacks(Thesis)/ | Call Number 0510 6D36 1091 | Accession No. 123060842 | Availability Available | Due Date | Make a Reservation | Service |
Contents information
Abstract
행동의 불확실성이 존재하는 연속 행동 공간은 의사 결정 알고리즘을 활용하 여 최적의 전략을 수립하기 어려운 도메인이다. 기존의 대다수의 MCTS 방법 론들은 이러한 도메인에서 낮은 탐색 성능을 보였다. 본 논문은 이러한 도메인 의 한 종류인 컬링에서 최적의 전략을 수립하는 탐색 알고리즘을 제안하는 것 을 목표로 한다. 이를 위해 컬링 경기의 특징이 반영된 평가 함수를 사용하여 스톤 투구의 불확실성 크기와 롤 아웃 시뮬레이션 퀄리티를 추정하는 방법을 적용한 UCT 기반의 탐색 알고리즘을 제안하였다. 실험을 위해 제안하는 각각 의 두 가지 방법론의 적용 여부에 따라 기본 UCT 알고리즘을 포함한 4가지 알고리즘을 준비하였다. 이들 간 대전 결과를 통하여 제안하는 방법론의 성능 을 평가하였다. 제안하는 방법론을 적용하지 않은 UCT가 가장 낮은 승률을 가 졌고 행동의 불확실성과 시뮬레이션 퀄리티 모두를 측정한 UCT_AR이 4가지 탐색 알고리즘 중 가장 높은 승률을 보여주었다. 또한 (우리는) 불확실성이 있 는 연속 공간의 도메인을 고려하여 기존에 제안된 알고리즘인 DPW, KR-UCT 와의 성능 비교를 통해 제안된 알고리즘이 가장 높은 성능을 보임을 확인했다. 이 결과는 본 연구가 불확실성이 있는 연속 행동 공간에서 사용할 수 있는 유 망한 방법론임을 증명한다.
Continuous action spaces in which uncertainty exists are the domain that is difficult to establish optimal strategy by using MCTS algorithm. Most of the existing MCTS variants showed low performance in these domains. This paper aims at proposing a MCTS algorithm to establish an optimal strategy for curling. For this purpose, UCT-based search algorithm is proposed using estimation function reflecting key features of curling game and estimating the size of uncertainty of stone throwing and the quality of rollout simulation. 4 algorithms including the basic UCT are prepared according to whether each of the two proposed methods are applied for the experiment. We evaluate the performance of the proposed methods by performing games between 4 algorithms. Basic UCT without any method applied had the lowest winning rate, and UCT_AR, which estimated both the uncertainty of actions and the simulation quality, showed the highest winning rate among the 4 search algorithms. In addition, we have confirmed that the proposed algorithm shows the best performance by comparing the performance with the DPW and KRUCT algorithms considering the uncertainty of the domain of the continuous space. This result proves that the proposed algorithm performs well in the challenging problem of continuous action space with uncertainty.
Table of Contents
1 Introduction 1 2 Related works 5 2.1 Probabilistic search 5 2.2 Monte Carlo tree search 6 2.3 Kernel Regression UCT 7 2.4 Double Progressive Widening 8 2.5 Rollout policies with domain knowledge 9 3 Method 10 3.1 Evaluation functions for curling 10 3.2 Action Reliability Assessment (ARA) 11 3.3 Rollout Quality Assessment (RQA) 13 3.4 Search algorithm for continuous action spaces with uncertainty 15 4 Experiments 16 4.1 Experimental setting 16 4.1 Experiments of each proposed method 16 4.1 Experiments with other algorithms 17 5 Conclusion 19