000 | 00000cam c2200205 c 4500 | |
001 | 000046150816 | |
005 | 20230526152012 | |
007 | ta | |
008 | 230526s2023 ggkad 001c kor | |
020 | ▼a 9791158393816 ▼g 93000 | |
035 | ▼a (KERIS)BIB000016609549 | |
040 | ▼a 241038 ▼c 241038 ▼d 211009 | |
082 | 0 4 | ▼a 006.312 ▼2 23 |
085 | ▼a 006.312 ▼2 DDCK | |
090 | ▼a 006.312 ▼b 2023z2 | |
100 | 1 | ▼a 황세웅 |
245 | 1 0 | ▼a 데이터 분석가가 반드시 알아야 할 모든 것 : ▼b 파이썬 코드와 캐글 데이터셋으로 실습하는 / ▼d 황세웅 지음 |
260 | ▼a 파주 : ▼b 위키북스, ▼c 2023 | |
300 | ▼a xvi, 620 p. : ▼b 천연색삽화, 도표 ; ▼c 24 cm | |
490 | 1 0 | ▼a 위키북스 데이터 사이언스 시리즈 = ▼a DS ; ▼v 087 |
500 | ▼a 색인수록 | |
830 | 0 | ▼a 위키북스 데이터 사이언스 시리즈 ; ▼v 087 |
830 | 0 | ▼a DS ; ▼v 087 |
945 | ▼a ITMT |
소장정보
No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
---|---|---|---|---|---|---|---|
No. 1 | 소장처 중앙도서관/제2자료실(3층)/ | 청구기호 006.312 2023z2 | 등록번호 111881022 | 도서상태 대출중 | 반납예정일 2023-12-05 | 예약 예약가능 | 서비스 |
No. 2 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.312 2023z2 | 등록번호 121263240 | 도서상태 대출중 | 반납예정일 2023-10-18 | 예약 예약가능 | 서비스 |
No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
---|---|---|---|---|---|---|---|
No. 1 | 소장처 중앙도서관/제2자료실(3층)/ | 청구기호 006.312 2023z2 | 등록번호 111881022 | 도서상태 대출중 | 반납예정일 2023-12-05 | 예약 예약가능 | 서비스 |
No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
---|---|---|---|---|---|---|---|
No. 1 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.312 2023z2 | 등록번호 121263240 | 도서상태 대출중 | 반납예정일 2023-10-18 | 예약 예약가능 | 서비스 |
컨텐츠정보
책소개
데이터 분석의 기초 체력이라 할 수 있는 통계학부터 필수적인 머신러닝 기법까지를 다룬다. 처음 비즈니스 문제를 정의하는 단계부터 데이터 준비, 모델링 및 평가, 그리고 스토리텔링까지, 데이터 분석가라면 반드시 알아야 하는 모든 내용이 이 책에 있다. 불필요한 수식과 이론을 최소화하고 비전공자라도 개념을 쉽게 이해할 수 있게 구성했다. 과거와 현재 데이터로 현상을 올바르게 이해하고 미래를 예측하여 의미 있는 비즈니스 인사이트를 얻는 방법을 이 책에서 배울 수 있다.
데이터 분석과 머신러닝의 각 업무 단계를 깊이 있게 이해하자!
이 책은 데이터 분석의 기초 체력이라 할 수 있는 통계학부터 필수적인 머신러닝 기법까지를 다룹니다. 처음 비즈니스 문제를 정의하는 단계부터 데이터 준비, 모델링 및 평가, 그리고 스토리텔링까지, 데이터 분석가라면 반드시 알아야 하는 모든 내용이 이 책에 있습니다. 불필요한 수식과 이론을 최소화하고 비전공자라도 개념을 쉽게 이해할 수 있게 구성했습니다. 과거와 현재 데이터로 현상을 올바르게 이해하고 미래를 예측하여 의미 있는 비즈니스 인사이트를 얻는 방법을 이 책에서 배울 수 있습니다.
★ 이 책에서 다루는 내용 ★
◎ 데이터 분석에 필수적인 통계학의 기본 개념
◎ 데이터 편향과 인지적 편향
◎ 비즈니스 문제를 정의하고 데이터 분석의 목적을 도출하는 방법
◎ 데이터 분석 환경 구성
◎ 데이터 탐색과 시각화
◎ 주요 머신러닝 알고리즘과 모델 성능 평가 기법
◎ A/B 테스트와 MAB
정보제공 :

저자소개
황세웅(지은이)
선문대학교 SW융합대학 AI소프트웨어학과 교수로 머신러닝, 인공지능, 파이썬 프로그래밍을 가르치며, 여러 기업의 기술 자문을 맡고 있다. 연세대학교에서 센서 데이터를 활용한 실시간 대중교통체계(Real-time Public Transportation Systems) 연구로 박사학위를 받았으며, 약 8년간 코오롱, 롯데 그룹 등에서 데이터 분석가 및 데이터 사이언티스트로서 다양한 비즈니스 도메인의 데이터를 분석하고 추천 시스템, 수요 예측 알고리즘 등의 모델을 구축 및 운영했다. - 깃허브: https://github.com/c-karl

목차
[1부] 데이터 기초체력 기르기 ▣ 1장: 통계학 이해하기 1.1 왜 통계학을 알아야 할까? 1.2 머신러닝과 전통적 통계학의 차이 1.3 통계학의 정의와 기원 1.4 기술 통계화 추론 통계 __1.4.1 기술 통계 __1.4.2 추론 통계 ▣ 2장: 모집단과 표본추출 2.1 모집단과 표본, 전수조사와 표본조사 2.2 표본조사를 하는 이유와 데이터과학 적용 방법 2.3 표본추출에서 나타나는 편향의 종류 2.4 인지적 편향의 종류 __2.4.1 확증 편향(confirmation bias) __2.4.2 기준점 편향(anchoring bias) __2.4.3 선택 지원 편향(choice-supportive bias) __2.4.4 분모 편향(denominator bias) __2.4.5 생존자 편향(survivorship bias) 2.5 머신러닝 모델 측면의 편향과 분산 2.6 표본 편향을 최소화하기 위한 표본 추출 방법 ▣ 3장: 변수와 척도 3.1 변수의 종류 3.2 변수 관계의 종류 3.3 척도의 종류 ▣ 4장: 데이터의 기술 통계적 측정 4.1 중심 성향의 측정 4.2 분산과 표준편차 4.3 산포도와 범위, 사분위수, 변동계수 4.4 왜도와 첨도 __4.4.1 왜도 __4.4.2 첨도 4.5 표준편차의 경험법칙 ▣ 5장: 확률과 확률변수 5.1 확률의 기본 개념 5.2 확률의 종류 5.3 분할과 베이지안 이론 __5.3.1 분할 __5.3.2 베이지안 이론 5.4 확률변수의 개념과 종류 5.5 심슨의 역설 ▣ 6장: 확률분포 6.1 확률분포의 정의와 종류 6.2 이산확률분포 __6.2.1 균등분포 __6.2.2 이항분포 __6.2.3 초기하분포 __6.2.4 포아송분포 6.3 연속확률분포 __6.3.1 정규분포 __6.3.2 지수분포 6.4 중심극한정리 [2부] 데이터 분석 준비하기 ▣ 7장: 가설검정 7.1 귀무가설과 대립가설 7.2 가설검정의 절차 7.3 가설검정의 유의수준과 p값 7.4 1종 오류와 2종 오류 ▣ 8장: 분석 프로젝트 준비 및 기획 8.1 데이터 분석의 전체 프로세스 __8.1.1 데이터 분석의 3단계 __8.1.2 CRISP-DM 방법론 __8.1.3 SAS SEMMA 방법론 8.2 비즈니스 문제 정의와 분석 목적 도출 8.3 분석 목적의 전환 8.4 도메인 지식 8.5 외부 데이터 수집과 크롤링 ▣ 9장: 분석 환경 세팅하기 9.1 어떤 데이터 분석 언어를 사용하는 것이 좋을까? 9.2 데이터 처리 프로세스 이해하기 9.3 분산데이터 처리 __9.3.1 HDFS __9.3.2 아파치 스파크 9.4 테이블 조인과 정의서 그리고 ERD __9.4.1 테이블 조인 __9.4.2 데이터 단어사전 __9.4.3 테이블 정의서 __9.4.4 ERD ▣ 10장: 데이터 탐색과 시각화 10.1 탐색적 데이터 분석 __10.1.1 엑셀을 활용한 EDA __10.1.2 탐색적 데이터 분석 실습 10.2 공분산과 상관성 분석 __10.2.1 공분산 __10.2.2 상관계수 __10.2.3 공분산과 상관성 분석 실습 10.3 시간 시각화 __10.3.1 시간 시각화 실습 10.4 비교 시각화 __10.4.1 비교 시각화 실습 10.5 분포 시각화 __10.5.1 분포 시각화 실습 10.6 관계 시각화 __10.6.1 관계 시각화 실습 10.7 공간 시각화 __10.7.1 공간 시각화 실습 10.8 박스 플롯 __10.8.1 박스 플롯 실습 ▣ 11장: 데이터 전처리와 파생변수 생성 11.1 결측값 처리 __11.1.1 결측값 처리 실습 11.2 이상치 처리 __11.2.1 이상치 처리 실습 11.3 변수 구간화(Binning) __11.3.1 변수 구간화 실습 11.4 데이터 표준화와 정규화 스케일링 __11.4.1 데이터 표준화와 정규화 스케일링 실습 11.5 모델 성능 향상을 위한 파생 변수 생성 __11.5.1 파생 변수 생성 실습 11.6 슬라이딩 윈도우 데이터 가공 __11.6.1 슬라이딩 윈도우 실습 11.7 범주형 변수의 가변수 처리 __11.7.1 범주형 변수의 가변수 처리 실습 11.8 클래스 불균형 문제 해결을 위한 언더샘플링과 오버샘플링 __11.8.1 언더샘플링과 오버샘플링 실습 11.9 데이터 거리 측정 방법 __11.9.1 대표적인 거리 측정 방법 __11.9.2 데이터 거리 측정 실습 [3부] 데이터 분석하기 ▣ 12장: 통계 기반 분석 방법론 12.1 분석 모델 개요 12.2 주성분 분석(PCA) __12.2.1 주성분 분석 실습 12.3 공통요인분석(CFA) __12.3.1 공통요인분석 실습 12.4 다중공선성 해결과 섀플리 밸류 분석 12.5 데이터 마사지와 블라인드 분석 __12.5.1 데이터 마사지 __12.5.2 블라인드 분석 12.6 Z-test와 T-test __12.6.1 Z-test와 T-test 실습 12.7 ANOVA(Analysis of Variance) __12.7.1 ANOVA 실습 12.8 카이제곱 검정(교차분석) __12.8.1 카이제곱 검정 실습 ▣ 13장: 머신러닝 분석 방법론 13.1 선형 회귀분석과 Elastic Net(예측모델) __13.1.1 회귀분석의 기원과 원리 __13.1.2 다항 회귀(Polynomial regression) __13.1.3 Ridge와 Lasso 그리고 Elastic Net __13.1.4 선형 회귀분석과 Elastic Net 실습 13.2 로지스틱 회귀분석 (분류 모델) __13.2.1 로지스틱 회귀분석 실습 13.3 의사결정나무와 랜덤 포레스트(예측/분류 모델) __13.3.1 분류나무와 회귀나무 __13.3.2 의사결정나무 모델의 장단점 __13.3.3 의사결정나무 모델의 과적합 방지를 위한 방법 __13.3.4 랜덤 포레스트 __13.3.5 의사결정나무와 랜덤 포레스트 실습 13.4 선형 판별분석과 이차 판별분석(분류 모델) __13.4.1 선형 판별분석 __13.4.2 이차 판별분석 __13.4.3 선형 판별분석과 이차 판별분석 실습 13.5 서포트벡터머신(분류 모델) __13.5.1 서포트벡터머신 실습 13.6 KNN(분류, 예측 모델) __13.6.1 KNN 실습 13.7 시계열 분석(예측모델) __13.7.1 회귀 기반 시계열 분석 __13.7.2 ARIMA 모델 __13.7.3 시계열 분석 실습 13.8 k-means 클러스터링(군집 모델) __13.8.1 k-means 클러스터링 실습 13.9 연관규칙과 협업 필터링(추천 모델) __13.9.1 연관 규칙 __13.9.2 콘텐츠 기반 필터링과 협업 필터링 __13.9.3 연관규칙과 협업 필터링 실습 13.10 인공 신경망(CNN, RNN, LSTM) __13.10.1 CNN __13.10.2 RNN과 LSTM __13.10.3 인공 신경망 실습 ▣ 14장: 모델 평가 14.1 학습 셋, 검증 셋, 테스트 셋과 과적합 해결 14.2 주요 교차 검증 방법 __14.2.1 k-Fold Cross Validation __14.2.2 LOOCV(Leave-one-out Cross-validation) __14.2.3 Stratified K-fold Cross Validation __14.2.4 Nested Cross Validation __14.2.5 Grid Search Cross Validation __14.2.6 주요 교차 검증 방법 실습 14.3 회귀성능 평가지표 __14.3.1 R-Square와 Adjusted R-Square __14.3.2 RMSE(Root Mean Square Error) __14.3.3 MAE(Mean Absolute Error) __14.3.4 MAPE(Mean Absolute Percentage Error) __14.3.5 RMSLE(Root Mean Square Logarithmic Error) __14.3.6 AIC와 BIC __14.3.7 회귀성능 평가지표 실습 14.4 분류, 추천 성능 평가지표 __14.4.1 혼동 행렬 __14.4.2 정확도, 오분류율, 정밀도, 민감도, 특이도 그리고 f-score __14.4.3 향상도 테이블과 향상도 차트 그리고 향상도 곡선 __14.4.4 ROC 곡선과 AUC __14.4.5 수익 곡선 __14.4.6 Precision at k, Recall at K 그리고 MAP __14.4.7 분류, 추천 성능 평가지표 실습 14.5 A/B 테스트와 MAB __14.5.1 A/B 테스트 __14.5.2 MAB 14.6 유의확률의 함정 14.7 분석가의 주관적 판단과 스토리텔링