HOME > Detail View

Detail View

Data smart : 엑셀로 이해하는 데이터 과학 입문 (Loan 15 times)

Material type
단행본
Personal Author
Foreman, John W. 고석범, 역
Title Statement
Data smart : 엑셀로 이해하는 데이터 과학 입문 / 존 포먼 지음 ; 고석범 옮김
Publication, Distribution, etc
의왕 :   에이콘,   2015  
Physical Medium
522 p. : 삽화, 도표 ; 24 cm
Series Statement
에이콘 데이터 과학 시리즈
Varied Title
Data smart : using data science to transform information into insight
ISBN
9788960777378 9788960774469 (Set)
General Note
색인수록  
Subject Added Entry-Topical Term
Data mining
000 00000cam c2200205 c 4500
001 000045856638
005 20160105140843
007 ta
008 160105s2015 ggkad 001c kor
020 ▼a 9788960777378 ▼g 94000
020 1 ▼a 9788960774469 (Set)
035 ▼a (KERIS)BIB000013816579
040 ▼a 244008 ▼c 244008 ▼d 244008 ▼d 211009
082 0 4 ▼a 006.31 ▼2 23
085 ▼a 006.31 ▼2 DDCK
090 ▼a 006.31 ▼b 2015z2
100 1 ▼a Foreman, John W.
245 1 0 ▼a Data smart : ▼b 엑셀로 이해하는 데이터 과학 입문 / ▼d 존 포먼 지음 ; ▼e 고석범 옮김
246 1 9 ▼a Data smart : ▼b using data science to transform information into insight
260 ▼a 의왕 : ▼b 에이콘, ▼c 2015
300 ▼a 522 p. : ▼b 삽화, 도표 ; ▼c 24 cm
440 0 0 ▼a 에이콘 데이터 과학 시리즈
500 ▼a 색인수록
650 0 ▼a Data mining
700 1 ▼a 고석범, ▼e
900 1 0 ▼a 포먼, 존, ▼e
945 ▼a KLPA

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 006.31 2015z2 Accession No. 121235199 Availability Available Due Date Make a Reservation Service B M
No. 2 Location Sejong Academic Information Center/Science & Technology/ Call Number 006.31 2015z2 Accession No. 151336632 Availability Available Due Date Make a Reservation Service
No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 006.31 2015z2 Accession No. 121235199 Availability Available Due Date Make a Reservation Service B M
No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Sejong Academic Information Center/Science & Technology/ Call Number 006.31 2015z2 Accession No. 151336632 Availability Available Due Date Make a Reservation Service

Contents information

Book Introduction

에이콘 데이터 과학 시리즈. 이 책은 아마존닷컴에서 평균 별점 5개로 독자들의 큰 호평을 받은 데이터 과학 입문서다. 누구나 사용하는 엑셀(Excel) 프로그램을 이용해 데이터 과학과 비즈니스 분석의 복잡한 알고리즘을 한눈에 보이듯 알려준다. "빅데이터가 중요하고 우리 회사도 도입한다고 하던데... 그게 뭐지?"라고 막연해 하는 실무 담당자들이나 "데이터 과학이 무엇이며, 왜 중요한 걸까?"라며 새로이 공부를 시작해 보려는 사람들에게 큰 도움이 되는 책이다.

아울러, 이미 웬만한 빅데이터 책은 여러 권 보았지만 단순한 기술 활용에서 별다른 영감을 얻지 못하는 이들에게 "어떻게 하면 빅데이터에서 통찰을 이끌어낼 수 있는지?"에 대한 새로운 출발점을 제공한다. 어렵지 않은 엑셀 예제들로 시작해 R로 마무리하며, 데이터 과학을 유쾌하고 쉬우며 재미있게 이해할 수 있게 해주는 흔치 않은 책이다.

일반 선형 모델, 앙상블 모델, 나이브 베이즈 등을 사용한 인공지능, k-평균, 구상 k-평균, 그래프 모듈성 등을 사용한 군집화, 비선형 프로그래밍과 유전 알고리즘 등을 비롯한 최적화, 시계열 데이터 작업과, 지수 평활법을 사용한 예측 방법, 리스크를 정량화하기 위한 몬테카를로 시뮬레이션, 단일 차원, 다차원에서 이상점 탐지 등을 다루고 있다.

★ 요약 ★

아마존닷컴에서 평균 별점 5개로 독자들의 큰 호평을 받은 데이터 과학 입문서다. 누구나 사용하는 엑셀(Excel) 프로그램을 이용해 데이터 과학과 비즈니스 분석의 복잡한 알고리즘을 한눈에 보이듯 알려준다. "빅데이터가 중요하고 우리 회사도 도입한다고 하던데... 그게 뭐지?"라고 막연해 하는 실무 담당자들이나 "데이터 과학이 무엇이며, 왜 중요한 걸까?"라며 새로이 공부를 시작해 보려는 사람들에게 큰 도움이 되는 책이다. 아울러, 이미 웬만한 빅데이터 책은 여러 권 보았지만 단순한 기술 활용에서 별다른 영감을 얻지 못하는 이들에게 "어떻게 하면 빅데이터에서 통찰을 이끌어낼 수 있는지?"에 대한 새로운 출발점을 제공한다. 어렵지 않은 엑셀 예제들로 시작해 R로 마무리하며, 데이터 과학을 유쾌하고 쉬우며 재미있게 이해할 수 있게 해주는 흔치 않은 책이다.

★ 이 책에서 다루는 내용 ★

■ 일반 선형 모델, 앙상블 모델, 나이브 베이즈 등을 사용한 인공지능
■ k-평균, 구상 k-평균, 그래프 모듈성 등을 사용한 군집화
■ 비선형 프로그래밍과 유전 알고리즘 등을 비롯한 최적화
■ 시계열 데이터 작업과, 지수 평활법을 사용한 예측 방법
■ 리스크를 정량화하기 위한 몬테카를로 시뮬레이션
■ 단일 차원, 다차원에서 이상점 탐지
■ 데이터 과학에 적합한 R 언어 탐구

★ 이 책의 대상 독자 ★

나는 이 책에 대한 전형적인 독자상(마케팅하는 사람들은 그것을 페르소나라고 부른다)을 다음과 같이 설정하고 글을 썼다.

■ 마케팅부의 부팀장으로 고객들의 거래 데이터를 전략적으로 사용해 가격과 고객 세그먼트를 결정하고자 한다. 그런데 소프트웨어 개발자들이나 비싼 컨설턴트들이 사용해 보도록 권하는 접근법을 제대로 이해하고 있지 않다.
■ 수요 예측 분석가로 회사의 과거 판매 데이터가 단순한 다음 분기 계획보다 더 가치가 있다는 사실을 잘 알고 있다. 그런데 그 가치를 뽑아내는 방법을 모른다.
■ 온라인 소매 스타트업의 사장으로 과거 고객들이 구매 데이터에 기반하여 언제 구매를 위해 그들이 지갑을 여는지 예측하고자 한다.
■ 경영정보 분석가로 회사의 기반 시설과 공급망 관리에 효율적으로 돈이 쓰이지 못하고 있다는 사실을 안다. 그럼에도 시스템적으로 어떻게 비용 절감 의사결정을 할지 모르겠다.
■ 온라인 마케터로 이메일, 페이스북, 트위터 등을 통해서 텍스트로 소통하는 고객들과 함께 더 많은 일을 하고 싶은데, 여러분은 그저 그것들을 읽고 저장하는 수준에 그치고 있다.

나는 여러분이 독자로서 데이터 과학에 대한 지식을 통해서 직접 이득을 취할 수 있기를 바라는데, 아직 모든 기술에 대한 기초는 갖추지 못했다고 가정할 것이다. 이 책의 목표는 데이터 과학과 관련된 여러 귀찮은 부분들(코드, 도구, 과장된 말들)을 걷어내고, 대학에서 한 학기 정도 선형 대수나 미적분학을 배운 사람이라면 충분히 이해할 수 있는 실용적인 예를 가지고 실질적인 테크닉을 가르치는 데 있다. 만약 대학에서 해당 과목을 F 학점 맞았다 하더라도 실망할 필요가 없다. 책을 천천히 읽거나 위키백과 등을 찾아보면 충분히 해결할 수 있다.

★ 이 책의 구성 ★

1장에서는 잘 모를 수도 있는 엑셀의 이런 저런 기능들을 설명할 것이다. 이후 그 기능들을 활용하는 사례들로 넘어간다. 이 책이 끝날 쯤이면, 다음과 같은 기술들을 이해하고, 문제를 풀기 위해서 무엇을 해야 할지 알게 될 것이다.

■ 선형, 정수형 프로그래밍을 사용한 최적화
■ 시계열 데이터를 다루고, 트렌드와 계절적 패턴을 감지하고, 지수 평활법을 사용하여 예측하는 방법
■ 리스트를 계량화하여 시나리오를 예측하는 데 몬테카를로 시뮬레이션 사용하기
■ 일반 선형 모델, 로지스틱 링크 함수, 앙상블(ensemble) 모델, 나이브 베이즈(na?ve bayes)에 기초한 인공지능
■ 코사인 유사도를 사용하여 거리 구하기, kNN 그래프 만들기, 모듈성 계산하기, 고객 군집화하기
■ 튜키 울타리를 사용하여 1차원에서 이상값 알아내기, 지역 이상값 인자를 사용하여 다차원에서 이상값 알아내기
■ 거인의 어깨에 올라서는 것처럼 다른 분석가들이 개발한 R 패키지를 이용하는 방법



Information Provided By: : Aladin

Author Introduction

존 포먼(지은이)

메일침프닷컴(MailChimp.com)의 수석 데이터 과학자다. 회복 경영 컨설턴트로 코카콜라, 로열캐리비언, 인터컨티넨털 호텔과 같은 대규모 사업체와 DoD, IRD, DHS, FBI와 같은 정부기관에서 데이터 분석 프로젝트를 해왔다. 사업체에서 데이터 분석 솔루션을 구축하는 방안이나 어려움들에 대해 자주 강연을 한다. John-Foreman.com을 보면 인근에서 열릴 강연 등을 찾을 수 있다. 데이터 작업을 하지 않을 때는 하이킹을 하거나 텔레비전을 보고, 온갖 맛없는 음식 등을 먹고, 세 명의 아들을 키운다.

고석범(옮긴이)

가톨릭대학교 의과대학을 졸업한 신경과 전문의다. 약 10년 동안 환자를 진료하다 창업에 뛰어들었다. 현재는 혈중 순환암 세포에 기반을 둔 동반 진단 기기 CTC-based Companion Diagnostics를 개발하는 바이오벤처를 이끌고 있다. 벤처 회사로서 많은 어려움을 헤쳐나가고 있지만 언젠가 레즈 커즈와일이 이야기한 특이점을 넘어 지수 성장(Exponetial Growth)을 할 수 있을 것이라는 희망을 품고 있다. 회사가 그런 지수적 성장을 성취하기 위해서는 ICT 기술을 잘 활용할 수 있어야 한다는 믿음이 있어 ICT 공부도 멈추지 않는다. 언젠가 가상병원(virtual hospital)을 만들 계획을 하고 있다. 저술서로 『R과 Knitr를 활용한 데이터 연동형 문서 만들기』(에이콘출판, 2014), 『통계 분석 너머 R의 무궁무진한 활용』(에이콘, 2017), 『R Shiny 프로그래밍 가이드』(한나래아카데미, 2017)가 있으며, 번역서로 『R과 Shiny 패키지를 활용한 웹 애플리케이션 개발』(에이콘, 2014), 『Data Smart: 엑셀로 이해하는 데이터 과학 입문』(에이콘, 2015), 『미티어 인 액션』(에이콘, 2015), 『초보자를 위한 RStudio 마스터』(에이콘, 2017)등이 있다.

Information Provided By: : Aladin

Table of Contents

1 스프레드시트에서 꼭 알아야 하지만, 감히 물어보지 못했던 것들 
__몇 개의 샘플 데이터 
__컨트롤 버튼으로 빠르게 이동 
__수식과 데이터를 빠르게 복사 
__셀 서식 선택 
__선택하여 붙여넣기 
__차트 삽입 
__찾기 및 바꾸기 
__값의 위치, 어떤 위치의 값을 다루는 수식 
__VLOOKUP을 사용하여 데이터 합치기 
__필터와 정렬 
__피벗 테이블 사용 
__배열 수식 사용 
__해 찾기로 문제 풀기 
__오픈솔버: 필요 없기를 바랬는데, 필요한 것 
__정리 

2 군집분석 1: K-평균을 사용하여 고객 기반 세분화 
__여자 아이들은 여자 아이들과 춤을 추고, 남자 아이들은 발꿈치를 긁는다 
__실제 적용: K-평균 군집화로 이메일 마케팅에서의 고객 분류 
____제이 뱅 오도넛 와인 도매 상사 
____최초의 데이터 셋 
____측정할 대상 결정 
____4개의 군집으로 시작 
____유클리드 거리: 직선 거리 구하기 
____모든 고객에 대한 거리와 군집 할당 
____군집 중심점 계산 
____결과 이해 
____군집별 가장 많았던 거래 정보 얻기 
____실루엣: 서로 다른 K 값이 치고받을 수 있도록 하는 좋은 방법 
____5개의 군집은 어떤가? 
____다섯 개의 군집에서 해 찾기 
____5개 군집의 최고 거래 내용 보기 
____5-평균 군집화에서 실루엣 계산 
__k-중앙 군집화와 비대칭적인 거리 측정 
____k-중앙 군집화의 사용 
____더 적합한 거리 매트릭스 구하기 
____이 모든 것을 엑셀에 집어 넣기 
____5-중앙 군집법에서의 최고 거래 보기 
__정리 

3 나이브 베이즈: 바보이기에는 너무나 민첩한 
__제품 이름을 맨드릴로 지으면 신호와 잡음을 동시에 얻는다 
__세상에서 가장 간단한 확률 이론 소개 
____조건부 확률 모두 합하기 
____결합 확률, 체인 규칙, 독립 
____종속적인 상황에서는 어떤 일이 벌어지는가? 
____베이즈의 정리 
__베이즈 규칙을 사용하여 인공지능 모델 만들기 
____높은 수준의 분류 확률은 종종 같다고 가정된다 
____추가로 고려할 잡다한 것들 
__엑셀 시작 
____불필요한 문장 부호 제거 
____빈칸을 사용하여 나누기 
____토큰의 개수와 확률 계산 
____모델을 가졌으므로 사용해 보자 
__정리 

4 모델 최적화: 신선한 과즙이 자기 스스로 혼합되는 것은 아니기 때문에 
__데이터 과학자가 최적화를 알아야 하는 이유 
__간단한 균형점 잡기 문제로 시작 
____문제를 하나의 포트폴리오로 표현 
____레벨셋을 이동하여 문제 풀기 
____심플렉스 메소드: 코너에서 찾기 
____엑셀로 작업해 보기 
____이 장의 뒤쪽에 괴물이 있다 
__혼합 모델을 이용해 과수원에서 유리잔까지 유지되는 신선함 
____혼합 모델의 사용 
____몇 가지 스펙으로 시작하자 
____일관성으로 돌아와서 
____데이터를 엑셀에 넣기 
____해 찾기에 문제 설정 
____기준 낮추기 
____죽은 다람쥐 치우기: 미니맥스 공식 
____IF-Then과 Big M 제한 조건 
____변수들을 곱하기: 볼륨을 11로 키우기 
__리스크 모델링 
____정규분포하는 데이터 
__정리 

5 군집분석 2: 네트워크 그래프와 커뮤니티 탐지 
__네트워크 그래프의 의미 
__간단한 그래프로 시각화 
__게피에 대한 간단한 소개 
____게피의 설치와 파일 준비 
____그래프 레이아웃 잡기 
____노드 등급 
____보기 좋게 인쇄 
____그래프 데이터 만지기 
__와인 도매 데이터로 그래프 만들기 
____코사인 유사도 행렬 만들기 
____r-네이버후드 그래프 만들기 
__에지의 가치는 얼마인가? 그래프 모듈성에서의 포인트와 벌점 
____무엇이 포인트이고 무엇이 벌점인가? 
____스코어 시트 설정 
__군집 나누기 
____분할 번호 1 
____Split 2: 일렉트릭 부갈루 
____그리고 Split3: 더 극단적으로 나누기 
____커뮤니티 인코딩과 분석 
__게피로 다시 돌아가기 
__정리 

6 회귀: 인공지능 지도 학습법의 원조 
__잠깐만요, 뭐라고요? 임신이라고요? 
__웃기지 마라! 
__선형회귀를 사용하여 리테일마트에서 임신 고객 예측 
____특성들의 집합 
____훈련용 데이터 만들기 
____가변수 만들기 
____선형 회귀 모델을 만들어 보기 
____선형 회귀 통계: R-Squared, F 검정, t 검정 
____새로운 데이터에 대한 예측과 성능 측정 
__로지스틱 회귀를 사용하여 임신 고객 예측 
____먼저 링크 함수가 필요하다 
____로지스틱 함수와 다시 최적화 
____실제로 해 보는 로직스틱 회귀 
____모델 선택: 선형 회귀와 로지스틱 회귀의 비교 
__더 많은 정보 
__정리 

7 앙상블 모델: 푸짐하게 준비된 맛없는 피자 
__6장의 데이터를 사용한다 
__배깅: 무작위, 훈련, 반복 
____결정 스텀프는 바보같은 예측인자에 대한 섹시하지 않은 용어다 
____내겐 그렇게 바보같아 보이지 않아요! 
____더 많은 힘이 필요하다! 
____훈련시키기 
____배깅 모델 평가 
__부스팅: 잘 안 되면 기운을 북돋고 다시 해 봐라! 
____모델 훈련: Every Feature Gets a Shot 
____부스팅 모델 평가 
__정리 

8 예측: 안심해라, 뭘 해도 틀릴 수 있다 
__장검 장사가 잘 되고 있다 
__시계열 데이터에 익숙해지기 
__단순 지수 평활법으로 천천히 시작한다 
____단순 평활 예측법을 위한 설정 
__데이터에 경향성이 있다 
__홀트의 트렌드 반영 지수 평활법 
____홀트 트렌드 반영 지수 평활법을 스프레드시트에서 설정 
____다 되었는가? 자기 상관을 보자. 
__배수적 홀트 윈터스 지수 평활법 
____초기 레벨, 트렌드, 계절성 요인 값의 설정 
____예측 
____최적화 
____지금 우리가 한 것에 대해 이야기해 주세요! 
____예측 구간 삽입 
____팬 차트 만들기 
__정리 

9 이상점 탐지: 이상해 보인다고 해서 진짜 이상한 것은 아니다 
__이상점은 (나쁜) 사람이 될 수도 있다 
__해들럼씨와 해들럼 부인의 논쟁 
____튜키 울타리 
____스프레드시트에서 튜키 울타리 적용 
____간단한 접근법의 한계 
__어떤 것에도 끔찍하지 않거나 모든 것에 나쁘다 
____그래프를 위한 데이터 준비 
____그래프 생성 
____k 최근접 이웃 구하기 
____그래프 이상점 탐지 방법 1: 내향등급 사용 
____그래프 이상점 탐지 방법 2: Getting Nuanced with k-Distance 
____그래프 이상점 탐색 방법 3: 지역 이상점 인자 
__정리 

10 스트레드시트에서 R로 옮겨가기 
__R에 올라타기 
____손으로 주물러 보기 
____R로 데이터 읽기 
__R로 실제 데이터 과학하기 
____단지 몇 줄로 와인 데이터에 대한 구상 K-평균 구하기 
____임신 데이터에서 인공지능 모델 구축 
____R에서의 예측 
____이상점 탐지 
__정리 

결론 
__나는 누구인가? 어떤 일이 있었는가? 
__더 나아가기 전에 
____문제의 본질에 다가서라 
____더 많은 중개자가 필요하다 
____머리 셋 달리 괴물을 직시해라: 도구, 성능, 수학적인 완성도 
____여러분은 여러분의 조직에서 가장 중요한 일을 하는 사람이 아니다 
__창의적으로 일하고 연결을 유지하자

New Arrivals Books in Related Fields