000 | 00000nam c2200205 c 4500 | |
001 | 000046007790 | |
005 | 20191128135744 | |
007 | ta | |
008 | 191128s2019 ggkad 001c kor | |
020 | ▼a 9791158391768 ▼g 93000 | |
040 | ▼a 211009 ▼c 211009 ▼d 211009 | |
082 | 0 4 | ▼a 006.31 ▼2 23 |
085 | ▼a 006.31 ▼2 DDCK | |
090 | ▼a 006.31 ▼b 2019z33 | |
100 | 1 | ▼a 손민규 |
245 | 2 0 | ▼a (기초부터 시작하는) 강화학습/신경망 알고리즘 : ▼b AI는 어떻게 게임을 할까 / ▼d 손민규 지음 |
260 | ▼a 파주 : ▼b 위키북스, ▼c 2019 | |
300 | ▼a 302 p. : ▼b 삽화, 도표 ; ▼c 24 cm | |
440 | 0 0 | ▼a 데이터 사이언스 시리즈 = ▼x DS ; ▼v 044 |
500 | ▼a 색인수록 | |
500 | ▼a 부록: A. 참고자료 | |
945 | ▼a KLPA |
소장정보
No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
---|---|---|---|---|---|---|---|
No. 1 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.31 2019z33 | 등록번호 121251210 | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
No. 2 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.31 2019z33 | 등록번호 121253404 | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
No. 3 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.31 2019z33 | 등록번호 521006551 | 도서상태 대출중 | 반납예정일 2023-06-10 | 예약 | 서비스 |
No. 4 | 소장처 세종학술정보원/과학기술실(5층)/ | 청구기호 006.31 2019z33 | 등록번호 151348134 | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
---|---|---|---|---|---|---|---|
No. 1 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.31 2019z33 | 등록번호 121251210 | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
No. 2 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.31 2019z33 | 등록번호 121253404 | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
No. 3 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.31 2019z33 | 등록번호 521006551 | 도서상태 대출중 | 반납예정일 2023-06-10 | 예약 | 서비스 |
No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
---|---|---|---|---|---|---|---|
No. 1 | 소장처 세종학술정보원/과학기술실(5층)/ | 청구기호 006.31 2019z33 | 등록번호 151348134 | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
컨텐츠정보
책소개
강화학습에 관심이 있지만 어디서 어떻게 시작해야 할지 모르는 분들을 위해 가장 기초적인 상태가치함수/행동가치함수의 정의부터 시작해서 신경망을 이용한 DQN까지 강화학습의 기본 알고리즘을 충분히 이해할 수 있게 구성했다.
실습 예제로 고전게임 틱택토(Tic Tac Toe)를 플레이하는 알파고 제로(AlphaGo Zero)와 같은 인공지능 플레이어를 만들어 봄으로써 인공지능이 어떻게 게임을 플레이하는가를 알아본다. 차근차근 실습을 진행한다면 강화학습의 기본 알고리즘을 충분히 이해할 수 있을 것이며, 이를 바탕으로 여러 가지 인공지능 시스템을 만들 수 있을 것이다.
강화학습을 어떻게 시작해야 할지 모르는 분들을 위해서 준비했습니다!
강화학습은 인간이 학습하는 과정과 비슷한 인공지능 분야 중 하나입니다. 로봇의 행동학습, 자율주행 자동차의 행동학습에 대표적으로 사용되며, 알파고의 핵심 알고리즘으로 유명해졌습니다.
이 책은 강화학습에 관심이 있지만 어디서 어떻게 시작해야 할지 모르는 분들을 위해 가장 기초적인 상태가치함수/행동가치함수의 정의부터 시작해서 신경망을 이용한 DQN까지 강화학습의 기본 알고리즘을 충분히 이해할 수 있게 구성했습니다.
실습 예제로 고전게임 틱택토(Tic Tac Toe)를 플레이하는 알파고 제로(AlphaGo Zero)와 같은 인공지능 플레이어를 만들어 봄으로써 인공지능이 어떻게 게임을 플레이하는가를 알아봅니다.
이 책으로 차근차근 실습을 진행한다면 강화학습의 기본 알고리즘을 충분히 이해할 수 있을 것이며, 이를 바탕으로 여러 가지 인공지능 시스템을 만들 수 있으리라 생각합니다.
정보제공 :

저자소개
손민규(지은이)
소니 반도체에서 데이터 분석업무와 알고리즘 및 시스템 개발 업무와 사원 대상 통계 알고리즘 강의를 진행했으며, 현재 삼성전자에서 데이터 분석 업무를 하고 있다. 일본 큐슈대학교에서 인공지능의 한 분야인 강화학습(Reinforcement Learning) 알고리즘 개발로 박사학위를 받았으며, 관심분야는 강화학습, 인공신경망(Neural Network), 유전 알고리즘(Genetic Algorithm) 등 머신러닝(Machine Learning) 알고리즘을 활용한 시스템 개발이다. - 저서: 《데이터 분석을 떠받치는 수학(2018)》 《기초부터 시작하는 강화학습/신경망 알고리즘(2019)》 - 번역: 《가장 쉬운 딥러닝 입문 교실(2018)》 《실전! 딥러닝(2019)》 《파이썬 데이터 분석 실무 테크닉 100(2010)》 - 감수: 《정석으로 배우는 딥러닝(2017)》

목차
▣ 01장: 인공지능이란? 머신러닝의 종류 __지도학습 __비지도학습 __강화학습 강화학습과 신경망 이 책의 구성 ▣ 02장: 강화학습 강화학습의 기본 요소 __환경 __상태 (S) __에이전트 __행동 (A) __상태전이확률 (P) __보상 (R) __수익 (G) __정책 (r) __에피소드 __마르코프 의사결정과정 (MDP) 환경과 에이전트 준비 가치함수 : 상태/행동의 가치 계산 __상태가치함수 : Vr __행동가치함수 : Qr 동적계획법 : 최적 정책 선택 __정책 평가 __반복 정책 평가 __정책 개선 __정책 반복 __가치 반복 몬테카를로 방법 __몬테카를로 방법의 Prediction __몬테카를로 방법의 Control 시간차 학습 __시간차 학습의 Prediction __시간차 학습의 Control : SARSA(On-policy) __시간차 학습의 Control : Q-learning(Off-policy) __Double Q-learning __정책 그레이디언트 : 액터-크리틱 함수 근사 함수 근사 : TD(0) Prediction 함수 근사 : Q-learning ▣ 03장: 인공신경망 퍼셉트론 손실함수 __평균제곱오차 __교차엔트로피오차 경사하강법 퍼셉트론의 학습 __숫자 외우기 __선형 함수 근사 __비선형 함수 근사 다층 퍼셉트론 활성화 함수 __시그모이드 함수 __하이퍼볼릭탄젠트 함수 __ReLU 함수 __소프트맥스 함수 오차역전파법 __오차역전파법이란? __중간층과 출력층 사이의 가중치와 편향 학습 __입력층과 중간층 사이의 가중치와 편향 학습 __비선형 함수 근사 학습 최적화 __일정 비율 감소 __모멘텀 __AdaGrad __RMSProp __Adam __드롭아웃 __배치 정규화 __그 밖의 방법 배치 경사하강법, 확률적 경사하강법, 미니배치 경사하강법 __배치 경사하강법 __확률적 경사하강법 __미니 배치 경사하강법 __에폭 케라스를 이용한 신경망 구현 합성곱신경망 __합성곱신경망이란? __합성곱층 __채널 __스트라이드 __패딩 __풀링층 __플래튼층 케라스를 이용한 합성곱신경망 구현 __손글씨 데이터 __손글씨 데이터 전처리 __합성곱신경망 구축 __학습과 결과 확인 ▣ 04장: 인공지능 만들기: 틱택토 게임 틱택토 준비 인간 플레이어 랜덤 플레이어 게임 진행 함수 몬테카를로 플레이어 Q-learning 플레이어 DQN 플레이어 ▣ 부록A: 참고 자료 A.1 미분 A.2 편미분 A.3 연쇄법칙