HOME > 상세정보

상세정보

End-to-end cross-lingual emotion transfer for emotional speech synthesis

End-to-end cross-lingual emotion transfer for emotional speech synthesis

자료유형
학위논문
개인저자
양홍선, 梁洪宣
서명 / 저자사항
End-to-end cross-lingual emotion transfer for emotional speech synthesis / Hong-sun Yang
발행사항
Seoul :   Graduate School, Korea University,   2020  
형태사항
v, 27장 : 도표 ; 26 cm
기타형태 저록
End-to-End Cross-Lingual Emotion Transfer for Emotional Speech Synthesis   (DCOLL211009)000000127353  
학위논문주기
학위논문(석사)-- 고려대학교 대학원: 컴퓨터·전파통신공학과, 2020. 2
학과코드
0510   6D36   1111  
일반주기
지도교수: 이성환  
서지주기
참고문헌: 장 22-27
이용가능한 다른형태자료
PDF 파일로도 이용가능;   Requires PDF file reader(application/pdf)  
비통제주제어
cross-lingual , end-to-end , emotional speech synthesis,,
000 00000nam c2200205 c 4500
001 000046026231
005 20200428154200
007 ta
008 200106s2020 ulkd bmAC 000c eng
040 ▼a 211009 ▼c 211009 ▼d 211009
041 0 ▼a eng ▼b kor
085 0 ▼a 0510 ▼2 KDCP
090 ▼a 0510 ▼b 6D36 ▼c 1111
100 1 ▼a 양홍선, ▼g 梁洪宣
245 1 0 ▼a End-to-end cross-lingual emotion transfer for emotional speech synthesis / ▼d Hong-sun Yang
260 ▼a Seoul : ▼b Graduate School, Korea University, ▼c 2020
300 ▼a v, 27장 : ▼b 도표 ; ▼c 26 cm
500 ▼a 지도교수: 이성환
502 0 ▼a 학위논문(석사)-- ▼b 고려대학교 대학원: ▼c 컴퓨터·전파통신공학과, ▼d 2020. 2
504 ▼a 참고문헌: 장 22-27
530 ▼a PDF 파일로도 이용가능; ▼c Requires PDF file reader(application/pdf)
653 ▼a cross-lingual ▼a end-to-end ▼a emotional speech synthesis
776 0 ▼t End-to-End Cross-Lingual Emotion Transfer for Emotional Speech Synthesis ▼w (DCOLL211009)000000127353
900 1 0 ▼a Yang, Hong-sun, ▼e
900 1 0 ▼a 이성환, ▼g 李晟瑍, ▼e 지도교수
945 ▼a KLPA

전자정보

No. 원문명 서비스
1
End-to-end cross-lingual emotion transfer for emotional speech synthesis (20회 열람)
PDF 초록 목차

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/학위논문서고/ 청구기호 0510 6D36 1111 등록번호 123063737 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 2 소장처 과학도서관/학위논문서고/ 청구기호 0510 6D36 1111 등록번호 123063738 도서상태 대출가능 반납예정일 예약 서비스 B M

컨텐츠정보

초록

최근의 연구는 잘 만들어진 감정적 음성 데이터 세트를 사용하여 입력 텍스트로부터 감정적인 표현이 있는 음성을 생성하는 감정적 text-to-speech (TTS) 에서 큰 성공을 거두었습니다. 그러나 전 세계 대부분의 언어에서는 공개적인 감정적 음성 데이터 세트가 없고, 이 것은 다양한 언어에서 감정적 TTS 를 구축하는데 어려움으로 작용합니다. 이 한계를 해결하기 위해 단조로운 음성 데이터 세트를 위한 감정적 TTS 모델을 구축하는 것을 목표로 합니다. 우리의 모델은 대상 언어의 텍스트와 중립적 음성 쌍에서 텍스트를 음성으로 바꾸는 법을 배우고, 다른 언어의 감정적 음성으로부터 감정적 표현을 배웁니다. 우리의 목표를 달성하기 위해 텍스트 인코더가 언어 독립적 인 텍스트 표현을 생성하도록 하는 한편 모델은 감정적 음성을 합성하도록 학습됩니다. 이로 인해 대상 언어의 감정적 음성 데이터 세트에 대해 학습을 받지 않았음에도 불과하고 감정적 음성이 생성됩니다. 실험 결과는 언어 간 감정 전달이 가능하다는 것을 보여줍니다.

Recent studies have shown great success in emotional text-to-speech (TTS), which is able to generate speech with an emotional expressiveness from the text, using a well-made emotional speech dataset. However, most languages over the world do not have emotional speech, which hinders making emotional TTS in various languages. To address this limitation, we aim to build an emotional TTS model for a monotonous speech dataset. Our model learns text-to-speech from text and neutral speech pairs of the target language and emotional expressions from the emotional speech of a foreign language. To achieve our goal, we make text encoder generate language-independent text representation while the model is trained to synthesize emotional speech. This leads to generating emotional speech despite they are never trained on the emotional speech dataset of the target language. Experiment results show that the cross-lingual emotion transfer is possible.

목차

Contents
1  Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2  Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1  Emotional Text-to-Speech . . . . . . . . . . . . . . . . . . . . . . .4
2.2  Cross-lingual Transfer Learning . . . . . . . . . . . . . . . . . . .6
3  Method  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7
    3.1  Multilingual Transcript Encoder . . . . . . . . . . . . . . . 10
    3.2  Emotion, Speaker and Language Embedding . . . . .11
    3.3  Cross-lingual Emotion Transfer . . . . . . . .  . . . . . . . 11
4  Experiments and Analysis  . . . . . . . . . . . . . . . . . . . . . .  13
    4.1  Data Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2  Model Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14
4.2  Mean Opinion Score . . . . . . . . . . . . . . . . . . . . . . . . . .15
4.3  F0 of Emotional Speech . . . . . . . . . . . . . . . . . . . . . . . 19
4.3  Emotion Classification Test . . . . . . . . . . . . .  . . . . . . . .19
5  Conclusion and Further Research  . . . . . . . . . . . . . . . . . 21
REFERENCE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .22