HOME > 상세정보

상세정보

(파이썬과 케라스로 배우는) 강화학습 : 내 손으로 직접 구현하는 게임 인공지능 (73회 대출)

자료유형
단행본
개인저자
이웅원, 저 양혁렬, 저 김건우, 저 이영무, 저 이의령, 저
서명 / 저자사항
(파이썬과 케라스로 배우는) 강화학습 : 내 손으로 직접 구현하는 게임 인공지능 / 이웅원 [외]지음
발행사항
파주 :   위키북스,   2017   (2018 3쇄)  
형태사항
xxix, 344 p. : 천연색삽화, 도표 ; 24 cm
총서사항
데이터 사이언스 시리즈 = DS ; 004
ISBN
9791158390723
일반주기
공저자: 양혁렬, 김건우, 이영무, 이의령  
부록: A. 학습 결과 업로드  
서지주기
참고문헌(p. 340)과 색인수록
000 00000cam c2200205 c 4500
001 000045911984
005 20190104162444
007 ta
008 170814s2017 ggkad b 001c kor
020 ▼a 9791158390723 ▼g 93500
035 ▼a (KERIS)BIB000014558506
040 ▼a 244009 ▼c 244009 ▼d 211009
082 0 4 ▼a 006.31 ▼2 23
085 ▼a 006.31 ▼2 DDCK
090 ▼a 006.31 ▼b 2017z9
245 2 0 ▼a (파이썬과 케라스로 배우는) 강화학습 : ▼b 내 손으로 직접 구현하는 게임 인공지능 / ▼d 이웅원 [외]지음
260 ▼a 파주 : ▼b 위키북스, ▼c 2017 ▼g (2018 3쇄)
300 ▼a xxix, 344 p. : ▼b 천연색삽화, 도표 ; ▼c 24 cm
440 0 0 ▼a 데이터 사이언스 시리즈 = ▼x DS ; ▼v 004
500 ▼a 공저자: 양혁렬, 김건우, 이영무, 이의령
500 ▼a 부록: A. 학습 결과 업로드
504 ▼a 참고문헌(p. 340)과 색인수록
700 1 ▼a 이웅원, ▼e
700 1 ▼a 양혁렬, ▼e
700 1 ▼a 김건우, ▼e
700 1 ▼a 이영무, ▼e
700 1 ▼a 이의령, ▼e
945 ▼a KLPA

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.31 2017z9 등록번호 111801852 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 2 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 006.31 2017z9 등록번호 121241187 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 3 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 006.31 2017z9 등록번호 121244738 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 4 소장처 세종학술정보원/과학기술실/ 청구기호 006.31 2017z9 등록번호 151344076 도서상태 대출중 반납예정일 2021-10-13 예약 서비스
No. 5 소장처 세종학술정보원/과학기술실/ 청구기호 006.31 2017z9 등록번호 151346276 도서상태 대출가능 반납예정일 예약 서비스
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.31 2017z9 등록번호 111801852 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 006.31 2017z9 등록번호 121241187 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 2 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 006.31 2017z9 등록번호 121244738 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/과학기술실/ 청구기호 006.31 2017z9 등록번호 151344076 도서상태 대출중 반납예정일 2021-10-13 예약 서비스
No. 2 소장처 세종학술정보원/과학기술실/ 청구기호 006.31 2017z9 등록번호 151346276 도서상태 대출가능 반납예정일 예약 서비스

컨텐츠정보

책소개

위키북스 데이터 사이언스 시리즈 4권. '알파고'로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지기 시작했다. 하지만 처음 강화학습을 공부하는 분들을 위한 쉬운 자료나 강의를 찾아보기 어려웠다. 외국 강의를 통해 어렵게 이론을 공부하더라도 강화학습을 구현하는 데는 또 다른 장벽이 있었다. 이 책은 강화학습을 처음 공부하는 데 어려움을 겪는 독자를 위해 이론부터 코드 구현까지의 가이드를 제시한다.

"강화학습을 쉽게 이해하고 코드로 구현하기"
강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다!


'알파고'로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지기 시작했다. 하지만 처음 강화학습을 공부하는 분들을 위한 쉬운 자료나 강의를 찾아보기 어려웠다. 외국 강의를 통해 어렵게 이론을 공부하더라도 강화학습을 구현하는 데는 또 다른 장벽이 있었다. 이 책은 강화학습을 처음 공부하는 데 어려움을 겪는 독자를 위해 이론부터 코드 구현까지의 가이드를 제시한다.

★ 이 책에서 다루는 내용 ★

◎ 강화학습의 배경과 개념
◎ 강화학습의 기초 이론: MDP, 벨만 방정식, 다이내믹 프로그래밍
◎ 고전 강화학습 알고리즘: 몬테카를로, 살사, 큐러닝
◎ 인공신경망을 이용한 강화학습 알고리즘: 딥살사, REINFORCE, DQN, 액터-크리틱, A3C
◎ 강화학습 알고리즘 구현: 그리드월드, 카트폴, 아타리게임


정보제공 : Aladin

저자소개

이웅원(지은이)

연세대학교 기계공학과를 졸업했다. '모두의연구소'에서 개최한 강화학습 스터디에 참여해 공부하면서 강화학습 관련 깃북(https://www.gitbook.com/book/dnddnjs/rl)을 작성했다. 현재는 제이마플에서 딥러닝을 사용해 소리를 인식하는 작업을 하고 있다.

양혁렬(지은이)

한양대학교에서 경영학과 컴퓨터 공학을 다중전공하고 있다. 현재는 음악/오디오 신호처리와 기계학습을 결합한 분야에 관심을 가지고 서울대학교 융합과학기술대학원의 음악 오디오 연구실에서 연구원으로 참여하고 있다.

김건우(지은이)

뉴욕 대학교에서 컴퓨터과학 학사 학위를 받았습니다. 우버 드라이버 프라이싱 팀에서 소프트웨어 엔지니어로 근무합니다. 대학교를 다니며 딥러닝과 강화학습 스터디 그룹에 참여하여 『파이썬과 케라스로 배우는 강화학습』(위키북스, 2017)을 공동 집필했습니다.

이영무(지은이)

중앙대학교 컴퓨터 공학과에 재학 중이며 '모두의연구소'에서 개최한 강화학습 스터디에서 공부했다. 현재 머신러닝, 딥러닝에 관련된 공부를 지속하고 있다.

이의령(지은이)

세종대학교에서 응용통계학과 경영학을 전공하고 졸업 후 스타트업에서 서버 개발 인턴으로 근무했다. 현재 '모두의연구소'에서 신호처리 관련 프로젝트를 진행하면서 머신러닝과 관련된 다양한 경험을 쌓고 있다.

정보제공 : Aladin

목차

[1부] 강화학습 소개 

▣ 1장: 강화학습 개요 
강화학습의 개념 
___스키너의 강화 연구 
___우리 주변에서의 강화 
___머신러닝과 강화학습 
___스스로 학습하는 컴퓨터, 에이전트 
강화학습 문제 
___순차적 행동 결정 문제 
___순차적 행동 결정 문제의 구성 요소 
___방대한 상태를 가진 문제에서의 강화학습 
강화학습의 예시: 브레이크아웃 
___딥마인드에 의해 다시 빛을 본 아타리 게임 
___브레이크아웃의 MDP와 학습 방법 
정리 
___강화학습의 개념 
___강화학습 문제 
___강화학습의 예시: 브레이크아웃 

[2부] 강화학습 기초 

▣ 2장: 강화학습 기초 1 - MDP와 벨만 방정식 
MDP 
___상태 
___행동 
___보상함수 
___상태 변환 확률 
___감가율 
___정책 
가치함수 
___가치함수 
___큐함수 
벨만 방정식 
___벨만 기대 방정식 
___벨만 최적 방정식 
정리 
___MDP 
___가치함수 
___벨만 방정식 

▣ 3장: 강화학습 기초 2 - 그리드월드와 다이내믹 프로그래밍 
다이내믹 프로그래밍과 그리드월드 
___순차적 행동 결정 문제 
___다이내믹 프로그래밍 
___격자로 이뤄진 간단한 예제: 그리드월드 
다이내믹 프로그래밍 1: 정책 이터레이션 
___강화학습 알고리즘의 흐름 
___정책 이터레이션 
___정책 평가 
___정책 발전 
___RLCode 깃허브 저장소 
___정책 이터레이션 코드 설명 
___정책 이터레이션 코드 실행 
다이내믹 프로그래밍 2: 가치 이터레이션 
___명시적인 정책과 내재적인 정책 
___벨만 최적 방정식과 가치 이터레이션 
___가치 이터레이션 코드 설명 
___가치 이터레이션 코드 실행 
다이내믹 프로그래밍의 한계와 강화학습 
___다이내믹 프로그래밍의 한계 
___모델 없이 학습하는 강화학습 
정리 
___다이내믹 프로그래밍과 그리드월드 
___다이내믹 프로그래밍 1: 정책 이터레이션 
___다이내믹 프로그래밍 2: 가치 이터레이션 
___다이내믹 프로그래밍의 한계와 강화학습 

▣ 4장: 강화학습 기초 3 - 그리드월드와 큐러닝 
강화학습과 정책 평가 1: 몬테카를로 예측 
___사람의 학습 방법과 강화학습의 학습 방법 
___강화학습의 예측과 제어 
___몬테카를로 근사의 예시 
___샘플링과 몬테카를로 예측 
강화학습과 정책 평가 2: 시간차 예측 
___시간차 예측 
강화학습 알고리즘 1: 살사 
___살사 
___살사 코드 설명 
___살사 코드의 실행 및 결과 
강화학습 알고리즘 2: 큐러닝 
___살사의 한계 
___큐러닝 이론 
___큐러닝 코드 설명 
___큐러닝 코드의 실행 결과 
정리 
___강화학습과 정책 평가 1: 몬테카를로 예측 
___강화학습과 정책 평가 2: 시간차 예측 
___강화학습 알고리즘 1: 살사 
___강화학습 알고리즘 2: 큐러닝 

[3부] 강화학습 심화 

▣ 5장: 강화학습 심화 1 - 그리드월드와 근사함수 
근사함수 
___몬테카를로, 살사, 큐러닝의 한계 
___근사함수를 통한 가치함수의 매개변수화 
인공신경망 
___인공신경망 1: 인공신경망의 개념 
___인공신경망 2: 노드와 활성함수 
___인공신경망 3: 딥러닝 
___인공신경망 4: 신경망의 학습 
인공신경망 라이브러리: 케라스 
___케라스 소개 
___간단한 케라스 예제 
딥살사 
___딥살사 이론 
___딥살사 코드 설명 
___딥살사의 실행 및 결과 
폴리시 그레이디언트 
___정책 기반 강화학습 
___폴리시 그레이디언트 
___REINFORCE 코드 설명 
___REINFORCE의 실행 및 결과 
정리 
___근사함수 
___인공신경망 
___인공신경망 라이브러리: 케라스 
___딥살사 
___폴리시 그레이디언트 

▣ 6장: 강화학습 심화 2 - 카트폴 
알고리즘 1: DQN 
___카트폴 예제의 정의 
___DQN 이론 
___DQN 코드 설명 
___DQN 실행 및 결과 
알고리즘 2: 액터-크리틱 
___액터-크리틱 이론 소개 
___액터-크리틱 코드 설명 
___액터-크리틱 실행 및 결과 
정리 
___알고리즘 1: DQN 
___알고리즘 2: 액터-크리틱 

▣ 7장: 강화학습 심화 3 - 아타리 
브레이크아웃 DQN 
___아타리: 브레이크아웃 
___컨볼루션 신경망(CNN)이란? 
___브레이크아웃의 컨볼루션 신경망 
___DQN 학습 전 준비 사항 
___DQN 코드 설명 
___텐서보드 사용법 
___브레이크아웃 DQN 실행 및 결과 
브레이크아웃 A3C 
___DQN의 한계 
___A3C란? 
___멀티스레딩 소개 
___브레이크아웃 A3C 코드 설명 
___브레이크아웃 A3C 실행 결과 
___브레이크아웃 DQN, A3C의 저장된 모델 플레이 
정리 
___브레이크아웃 DQN 
___브레이크아웃 A3C 

▣ 부록A: 학습결과 업로드 
___오픈에이아이 짐의 다양한 예제 
___오픈에이아이 짐에 학습 결과를 업로드

관련분야 신착자료

Cartwright, Hugh M. (2021)
한국소프트웨어기술인협회. 빅데이터전략연구소 (2021)