HOME > Detail View

Detail View

User personality based dialogue policy modeling using reinforcement learning for service robots

User personality based dialogue policy modeling using reinforcement learning for service robots

Material type
학위논문
Personal Author
김준호 金準鎬
Title Statement
User personality based dialogue policy modeling using reinforcement learning for service robots / Junho Kim
Publication, Distribution, etc
서울 :   고려대학교 대학원,   2018  
Physical Medium
x, 82장 : 도표 ; 26 cm
기타형태 저록
User Personality based Dialogue Policy Modeling using Reinforcement Learning for Service Robots   (DCOLL211009)000000081714  
학위논문주기
학위논문(석사)-- 고려대학교 대학원, 컴퓨터·전파통신공학과, 2018. 8
학과코드
0510   6D36   1081  
General Note
지도교수: 이성환  
Bibliography, Etc. Note
참고문헌: 장 74-82
이용가능한 다른형태자료
PDF 파일로도 이용가능;   Requires PDF file reader(application/pdf)  
비통제주제어
Personality, Dialogue policy learning, Reinforcement learning, User profiling and adaptation,,
000 00000nam c2200205 c 4500
001 000045953842
005 20230526134612
007 ta
008 180704s2018 ulkd bmAC 000c kor
040 ▼a 211009 ▼c 211009 ▼d 211009
085 ▼a 0510 ▼2 KDCP
090 ▼a 0510 ▼b 6D36 ▼c 1081
100 1 ▼a 김준호 ▼g 金準鎬
245 1 0 ▼a User personality based dialogue policy modeling using reinforcement learning for service robots / ▼d Junho Kim
260 ▼a 서울 : ▼b 고려대학교 대학원, ▼c 2018
300 ▼a x, 82장 : ▼b 도표 ; ▼c 26 cm
500 ▼a 지도교수: 이성환
502 0 ▼a 학위논문(석사)-- ▼b 고려대학교 대학원, ▼c 컴퓨터·전파통신공학과, ▼d 2018. 8
504 ▼a 참고문헌: 장 74-82
530 ▼a PDF 파일로도 이용가능; ▼c Requires PDF file reader(application/pdf)
653 ▼a Personality ▼a Dialogue policy learning ▼a Reinforcement learning ▼a User profiling and adaptation
776 0 ▼t User Personality based Dialogue Policy Modeling using Reinforcement Learning for Service Robots ▼w (DCOLL211009)000000081714
900 1 0 ▼a Kim, Jun-ho, ▼e
900 1 0 ▼a 이성환, ▼g 李晟瑍, ▼d 1962-, ▼e 지도교수 ▼0 AUTH(211009)151678
945 ▼a KLPA

Electronic Information

No. Title Service
1
User personality based dialogue policy modeling using reinforcement learning for service robots (30회 열람)
View PDF Abstract Table of Contents

Holdings Information

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Stacks(Thesis)/ Call Number 0510 6D36 1081 Accession No. 123059619 Availability Available Due Date Make a Reservation Service B M
No. 2 Location Science & Engineering Library/Stacks(Thesis)/ Call Number 0510 6D36 1081 Accession No. 123059620 Availability Available Due Date Make a Reservation Service B M

Contents information

Abstract

사람-로봇 상호작용 분야에서 사용자 성격 및 개인의 특성을 고려하는 것이 사용자의 대화 상호작용 만족도를 증가시키기 위해 매우 중요하다. 하지만, 기존 연구들의 로봇 대화 시스템은 설계된 모델이 변하지 않으며, 개인의 특성을 찾기 위해 많은 시간이 필요하다. 따라서 본 연구에서는 사용자 성격을 고려하여 Q-학습 알고리즘을 통해 개선되는 적응형 대화 시스템을 제안한다. 본 연구에서는 강화학습 프레임워크에 사용자 성격요인을 적용하여 사용자의 만족도를 높이는 성격 별 대화 패턴을 학습하기 위해 3가지 방법을 제안한다. 첫째, 사용자가 선호하는 성격 별 대화 패턴을 얻어내기 위해 개인 성격 별 초기 가치 모델을 적용한다. 둘째, 사용자의 성격 별 대화 패턴을 얻어내기 위해 개인 성격 별 강화학습의 탐험 및 고수 비율을 다르게 적용한다. 셋째, 성격 별 사용자의 보상을 적응한다. 제안하는 방법의 우수성을 증명하기 위해, 제안하는 시스템과 기존 시스템의 대화 길이 차이 및 수렴성을 실험을 통해 증명하였다. 또한 학습 과정 동안의 보상의 총합과 최종 만족도 평가를 통해 제안하는 방법의 사용자 만족도를 확인했다.

In the field of human-robot interaction, consideration of user personality and personality characteristics is very important to increase user's conversation interaction satisfaction. However, the robot dialogue system of previous studies does not change the designed model, and it takes a lot of time to find individual characteristics. Therefore, this study proposes an adaptive dialogue system which is improved through Q-learning algorithm considering user characteristics. In this study, we propose three methods to learn the dialogue pattern via user personality by applying user personality factor to reinforcement learning framework. First, the initial value model for each personality is applied to obtain the user-preferred pattern of personality conversation. Second, the exploration of the reinforcement learning according to individual personality and the ratio of adherence are applied differently in order to obtain the dialogue pattern according to the personality of the user. Third, we adapt the rewards of the user by personality. In order to prove the superiority of the proposed method, the experimental results show that the proposed system and the existing system have differences in conversation length and convergence. In addition, we confirmed the user satisfaction of the proposed method through the sum of the compensation during the learning process and the final satisfaction evaluation.

Table of Contents

제 1장 서론 1
1.1 연구 배경 및 동기 1
1.2 연구 목표 5
1.3 제안하는 연구의 접근법 및 기여 6
1.4 연구 개요 8
제 2장 관련 연구 9
2.1 사용자 프로파일링과 적응(User Profiling and Adaptation) 9
2.1.1 HRI 분야의 사용자 프로파일링과 적응 방법	9
2.1.2 성격 11
2.1.3 Big 5 성격 이론 12
2.1.4 대화 정책의 개인차 14
2.2 음성 대화 시스템(Spoken Dialogue System)	17
2.2.1 음성 대화 시스템의 종류 17
2.2.2 작업 지향 음성 대화 시스템의 구성 18
2.2.3 대화 관리기의 중요성 21
2.2.4 Slot filling Problem 24
2.3 강화 학습(Reinforcement Learning) 25
2.3.1 마코프 결정 과정(Markov Decision Process)26
2.3.3 표층 강화학습(Tabular Reinforcement Learning) 27
2.3.3 Q-학습(Q-Learning) 28
2.3.4 강화학습 문제로서의 대화 관리기 29
제 3장 제안하는 방법 32
3.1 대화 정책 학습 분야의 사용자 성격 적응 필요성 32
3.2 강화학습을 이용한 사용자 성격 기반 음성 대화 시스템 34
3.2.1 음성 대화 시스템의 강화학습 문제로서의 문제 정의 34
3.2.2 강화학습 프레임워크를 이용한 음성 대화 시스템 36
3.3 사용자 성격 요소에 따른 초기 가치 값 37
3.4 사용자 성격 요소에 따른 에이전트 고수/탐험 비율 39
3.5 사용자 성격 요소에 따른 보상 41
제 4장 실험 방법 및 결과 44
4.1 실험 설계 및 준비 44
4.2 실험 시나리오 46
4.3 실험 방법 47
4.3.1 사용자 성격 요소 측정 47
4.3.2 사용자 실험 진행 48
4.4 실험 결과 53
4.4.1 ‘일정 등록’ 작업에 대한 대화 정책 학습 결과 53
4.4.2 ‘일정 등록’ 작업에 대한 만족도 평과 결과 59
4.4.3 ‘영화 예매’ 작업에 대한 대화 정책 학습 결과 65
4.4.4 ‘영화 예매’ 작업에 대한 만족도 평과 결과 68
제 5장 결론 및 향후 과제 72
참고 문헌 74

New Arrivals Books in Related Fields