HOME > 상세정보

상세정보

빅데이터와 통계학 = 제2판

빅데이터와 통계학 = 제2판

자료유형
단행본
개인저자
홍종선, 洪種善, 1959- 평산, 平散, 1959-, 저
서명 / 저자사항
빅데이터와 통계학 = Big data and statistics / 홍종선 지음
판사항
제2판
발행사항
서울 :   탐진,   2021  
형태사항
268 p. : 삽화, 도표 ; 27 cm
ISBN
9788955406719
일반주기
색인수록  
홍종선의 호는 '평산(平散)'임  
일반주제명
빅 데이터[big data] 통계학[統計學]
000 00000cam c2200205 c 4500
001 000046069742
005 20210504153421
007 ta
008 210223s2021 ulkad 001c kor
020 ▼a 9788955406719 ▼g 93310
035 ▼a (KERIS)BIB000015767977
040 ▼a 211040 ▼c 211040 ▼d 211009
082 0 4 ▼a 519.50285 ▼2 23
085 ▼a 519.50285 ▼2 DDCK
090 ▼a 519.50285 ▼b 2021z4
100 1 ▼a 홍종선, ▼g 洪種善, ▼d 1959-
245 1 0 ▼a 빅데이터와 통계학 = ▼x Big data and statistics / ▼d 홍종선 지음
250 ▼a 제2판
260 ▼a 서울 : ▼b 탐진, ▼c 2021
300 ▼a 268 p. : ▼b 삽화, 도표 ; ▼c 27 cm
500 ▼a 색인수록
500 ▼a 홍종선의 호는 '평산(平散)'임
650 8 ▼a 빅 데이터[big data]
650 8 ▼a 통계학[統計學]
700 1 ▼a 평산, ▼g 平散, ▼d 1959-, ▼e

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/신착도서코너/ 청구기호 519.50285 2021z4 등록번호 151353919 도서상태 대출가능 반납예정일 예약 서비스 C

컨텐츠정보

책소개

본서에서는 빅데이터 분석에 역점을 두지만, 빅데이터를 처리할 수 있는 고가의 슈퍼컴퓨터를 사용하지 않는다. 오히려 학부생들이 집에서 보유하고 있는 가장 일반적인 개인 컴퓨터 사용을 기반으로 한다. 그리고 비싼 사용료를 지불해야 하는 통계소프트웨어를 사용하지 않고 가장 일반적인 개인 컴퓨터에 내장되어 있거나 따로 사용료를 지불하지 않아도 되는 마이크로 엑셀을 사용하면서 학습하는 것을 목표로 한다.

컴퓨터사이언스 전공자들로부터 데이터베이스, 데이터웨어하우스, 데이터마이닝 등 현란한 용어가 계속 등장하고 꾸준히 진화하면서 발전하고 있다. 통계학도 컴퓨터사이언스와 동반적으로 발전하고 있는데 인공지능(AI), 사물인터넷(IoT) 등과 함께 특히, 요즘 커다란 이슈인 ‘빅데이터(Big Data)’의 등장으로 통계학은 비약적으로 발전하고 있음을 실감한다.
평생을 학교에서 강의와 연구만 해서 학교 밖의 사회 현실에 대하여 둔감하지만, 대학교 1, 2학년의 학부생들이 전공을 선택할 때 통계학을 선호하는 현상이 증가하고 있으며, 통계학 학위를 가진 학부 졸업생들의 취업이 매우 잘 되며 좋은 직장에 있는 상황이며, 통계학을 전공하려고 대학원 석사와 박사과정에 진학하는 대학원생들의 수가 증가하는 추세이며, 그리고 각 대학교에서 통계학 박사를 교수로 초빙하려는 모집 공고가 타 전공에 비해 비역적으로 많은 상황 등을 살펴보면, 요즘 통계학의 인기는 그 어떤 시기보다 좋다는 것을 절실하게 느낄 수 있다. 한마디로 표현하면 (과장되었다고 볼 수도 있지만),
통계학의 르네상스 시대가 시작하였다.
라고 감히 얘기할 수 있다. 르네상스 시대이다가 아니라 르네상스 시대가 시작하였고 계속 발전하고 있는 상태라는 의미이다.
빅데이터에서 중요한 것은 데이터 관리와 분석이라고 할 수 있는데, 특히 통계학의 사용이 절대적으로 필요한 빅데이터 분석에 대하여 살펴보자. 빅데이터 분석을 하기 위해서는 용량이 큰 데이터를 처리할 수 있는 고가의 슈퍼 컴퓨터를 연상하기 쉽다. 슈퍼 컴퓨터에 대하여도 빅데이터 만큼이나 쉽게 정의하기 어려워 이에 대하여는 본서의 제1장에 서술하였지만, 중요한 점은 제1세대의 슈터 컴퓨터는 현재 여러분의 손에 있는 핸드폰의 기능보다도 떨어진다는 점이다. 아무튼 일반적인 슈퍼 컴퓨터를 사용하지 않고 여러분이 사용하고 있는 개인 컴퓨터를 사용하여도 용량이 큰 데이터를 분석해보면 상식적으로 알고 있는 지식과 일치하는 결과를 얻을 수 없는 경우가 많이 발생한다. 심지어 특정한 현상과 추세 등을 파악하기는 더욱 어렵다. 따라서 빅데이터 분석에서의 통계학의 역할은 더욱 중요하다.

통계학을 활용하여 빅데이터 분석하기 위해서는 대용량 자료를 한꺼번에 사용하는 것보다 빅데이터 자료를 우선 다양하게 분할하고, 분할된 자료를 통계적으로 분석하여 결과를 해석하여야 한다. 그리고 얻은 결과들 중에서 동일하게 해석할 수 있는 자료의 성격을 파악하여 유사한 특성을 가진 분할된 자료를 통합하면서 빅데이터 자료분석을 진행해 나가야 하는 점이 중요하다. 즉 대용량 자료인 빅데이터 자료를 다양하게 분할하여 분석하고 얻은 결과를 해석하여야 하고, 유사하게 해석할 수 있는 분할된 자료를 통합하면서 특성을 파악하는 과정을 반복하면 분석을 진행하여야 한다. 이런 과정 중에서 제일 중요한 것인 ‘통계자료분석’이라고 할 수 있다. 그러므로 빅데이터 분석의 핵심인 통계학의 중요성은 강조하고 다시 강조해도 지나치지 않다.
성균관대학교 학부대학에서 ‘통계적 사고’ 그리고 ‘생활 속의 통계’라는 과목으로 강좌가 오랫동안 유지되어 왔었다. 그러나 2020년도부터 두 과목을 폐지하고 새로운 시대에 맞춰 ‘빅데이터와 통계학’ 이란 하나의 강좌를 학부대학에서 새롭게 개설한다. 이 과목과 강의를 위해 본서를 집필하였다.
본서에서는 빅데이터 분석에 역점을 두지만, 빅데이터를 처리할 수 있는 고가의 슈퍼컴퓨터를 사용하지 않는다. 오히려 학부생들이 집에서 보유하고 있는 가장 일반적인 개인 컴퓨터 사용을 기반으로 한다. 그리고 비싼 사용료를 지불해야 하는 통계소프트웨어를 사용하지 않고 가장 일반적인 개인 컴퓨터에 내장되어 있거나 따로 사용료를 지불하지 않아도 되는 마이크로 엑셀을 사용하면서 학습하는 것을 목표로 한다.
다시 이야기 하면, 빅데이터 분석이라고 하면 빅데이터를 관리할 수 있는 슈퍼컴퓨터 급의 컴퓨터를 가까이 사용할 수 있는 분(학생)이거나 빅데이터의 관리를 원활하게 취급할 줄 수 있는 높은 수준의 컴퓨터에 관한 지식이 필요로 하거나, 빅데이터를 분석하기 위한 고가의 통계 소프트웨어의 사용법을 매우 잘 아는 분(학생)이 아니라도, 누구나 갖고 있는 평범한 개인 컴퓨터를 사용하여 그 개인 컴퓨터에 내장되어있는 소프트웨어를 사용하여 빅데이터를 통계 분석하는 방법을 쉽게 이해하고 숙지하고 배우기 위하여 교재를 개발한다.

통계자료분석에 대하여는 어떻게 분석하고 해석하느냐에 따라 설명이 다르기 때문에 정답은 없다.
‘통계자료분석은 요리와 같다’
라고 주장한다. 주어진 재료가 똑같다 하더라도 요리사가 누구며 요리 방법에 따라 음식의 맛은 천지 차이가 나는 이치이다. 인스턴트 식품의 대명사인 라면, 그 중에서도 특정한 라면 하나를 예로 들어 설명한다. 누구나 쉽게 끓일 수 있는 라면도 누가 어떻게 하느냐에 따라 즉, 물과 불의 조절에 따라 맛의 혁혁한 차이를 누구나 느낄 수 있다. 심지어 같은 요리를 만들기 위하여 다양한 재료를 어떤 순서의 조합으로 어떻게 조리하느냐에 따라 음식 맛은 천지 차이가 난다는 것을 잘 알고 있을 것이다.
자료분석도 마찬가지이다. 그렇기 때문에 정확한 통계학적 이론과 지식을 바탕으로 자료를 다양한 분석 방법을 활용하여 분석해 보는 풍부한 경험이 제일 중요하다. 그러므로 독자는 시간이 허락하는 범위에서 본서를 기초로 공부한 다음에 여러 종류의 자료를 통계적으로 분석하는 다양한 방법을 배우고 토론하여 자료분석하는 능력을 발전시키기 바란다.
마지막으로 본서의 집필을 도와준 신혜수, 전해선, 홍성혁, 최소연 제자에게 고마움을 전하고, 탐진 출판사 최재범 사장님과 최효진 상무님께 감사드립니다.


2020. 2.
북악산 기슭 平散齋에서


정보제공 : Aladin

저자소개

홍종선(지은이)

성균관대학교 경상대학 통계학과 졸업 미국 Iowa State University 대학원 통계학과 (통계학 석ㆍ박사) 미국 USDA/NADC 연구원 캐나다 University of British Columbia 교환교수 현: 성균관대학교 경제학부 통계학전공 교수 | 전공분야 | 신용평가, 분포론, 수리통계(추정과 검정), 다변량분석, 로그선형모형, 범주형자료분석, 보험통계, 스포츠통계. | 경 력 | 성균관대학교 통계학과 학과장 성균관대학교 보험계리학과 학과장 성균관대학교 응용통계연구소 소장 성균관대학교 출판부 부장 성균관대학교 심산김창숙연구회 회장 성균관대학교 미식축구부 부장교수 성균관대학교 학술정보관, 산학협력단, 한국산업연구소 등 위원 한국데이터정보과학회 부회장 한국통계학회 이사 녹십자생명보험주식회사 사외이사 등등 | 저 서 | 통계적 확률분포, 자유아카데미, 2000 추정과 가설검정, 자유아카데미, 2000 조사벙법과 엑셀을 이용한 자료분석(중판), 박영사(공저), 2005 신용도 이론, 자유아카데미(공저), 2006 설문조사자료의 통계분석, 자유아카데미(공저), 2007 최신보험통계학, 자유아카데미(공저), 2009 SAS/SPSS와 다변량 자료분석, 자유아카데미, 2012 보험계리모형론-신뢰도와 위험, 자유아카데미(공저), 2012 SAS와 통계자료분석, 제4판, 탐진, 2014 SAS를 이용한 회귀모형 자료분석, 제1판, 탐진(공저), 2016 등등

정보제공 : Aladin

목차

Chapter 01 빅데이터를 지배하는 통계학 11

⋆ 통계학자가 되려는 10가지 이유 / 12
1.1 빅데이터 13
1.2 빅데이터 통계분석 17
1.3 빅데이터를 지배하는 통계학 19
1.4 빅데이터를 분석하는 소프트웨어 21
⋆ 참고문헌 / 26

Chapter 02 엑셀을 이용한 통계량 계산 및 그래프 작성 27

⋆ 그리스 알파벳 / 28
2.1 데이터 세트 설정과 함수변환 29
2.2 외부 데이터 불러오기와 데이터 변형 35
(1) 텍스트 파일 불러오기 35
(2) 행/열 바꾸기 37
2.3 기술통계량 구하기 39
2.4 피벗 테이블 작성 44
2.5 분할표와 그래프 작성 47
(1) 히스토그램 47
(2) 파이차트 49
(3) 꺾은선 그래프 52
(4) 상자 수염 그림 53
2.6 자료다운방법 55
(1) 마이크로데이터 통합서비스 55
(2) 교통사고분석시스템 56
(3) 공공데이터포털 57
⋆ 추가분석과제 / 59

Chapter 03 빅데이터 요약과 통계 분석: 분할표와 그래프 작성 61

3.1 타이태닉호 사망자 자료 분석 63
(1) 데이터 변환 63
(2) 피벗 테이블 만들기 65
(3) 피벗 테이블을 이용하여 히스토그램 작성 67
(4) 피벗 테이블을 이용하여 파이차트 작성 69
⋆ 추가 분석 과제 / 73
3.2 지하철 4호선 자료 분석 74
(1) 요일별 승차인원 자료 분석 76
(2) 요일별 승차인원 자료요약과 그림 작성 78
(3) 평일과 주말의 승차인원 자료 분석과 그림 작성 80
(4) 시간대별 승차인원 자료분석과 그림 작성 81
(5) 승하차 인원 상ㆍ하위 다섯 개 역 비교 분석 85
(5.1) 지하철 4호선의 각 역별 승하차 인원 합계 데이터 설정 85
(5.2) 지하철 4호선의 각 역별 승하차 인원 합계 데이터 분석 86
⋆ 추가 분석 과제 / 88
3.3 교통사고 자료 분석 89
(1) 요일별 교통사고건수 비교 89
(2) 시간대별 교통사고건수 비교 94
(3) 요일별 시간대별 사고건수대비 사망률 비교 96
(4) 가해운전자 차종별 시간대별 사고건수대비 사망률 비교 98
(5) 계절별 교통사고건수 및 사고건수대비 사망률 비교 101
(6) 시도별 교통사고건수 및 사망자수 비교 102
(6.1) 시도별 인구 10만 명당 교통사고건수 및 사망자 비교 103
(6.2) 시도별 자동차 1만 대당 교통사고건수 및 사망자 비교 104
⋆ 추가 분석 과제 / 106

Chapter 04 확률분포함수 109

4.1 이산형 확률분포 111
(1) 이항분포 111
(2) 포아송분포 116
4.2 연속형 확률분포 125
(1) 정규분포 125
(2) 지수분포 132
4.3 확률분포들간의 관계 137
(1) 이항분포와 포아송분포의 관계 137
(2) 이항분포의 정규 근사 139
⋆ 추가 분석 과제 / 142

Chapter 05 확률모의실험 145

5.1 난수 추출 148
(1) 균일분포 148
(2) 이항분포 158
(3) 정규분포 159
5.2 표본추출방법: 단순무작위추출법 163
⋆ 추가 분석 과제 / 164

Chapter 06 빅데이터분석을 위한 통계방법1: 상관분석과 회귀분석 165

6.0 상관분석과 회귀분석 설명 167
(1) 상관분석 167
⋆ 추가 분석 과제 / 178
(2) 회귀분석 180
⋆ 추가 분석 과제 / 190
6.1 도시별 복지기능 특성자료 191
(1) 데이터 설명 191
(2) 변수간 상관분석을 통한 관계 파악 191
(3) 변수간 산점도를 통한 관계 파악 194
6.2 국내 상위기업 재무자료 199
(1) 데이터 설명 199
(2) 변수간 상관분석을 통한 관계 파악 200
(3) 변수간 산점도를 통한 관계 파악 200
6.3 도시별 사회경제적 현상 203
(1) 데이터 설명 203
(2) 변수간 상관분석을 통한 관계 파악 204
(3) 변수간 산점도를 통한 관계 파악 204
6.4 남자 국제 육상 기록 207
(1) 데이터 설명 207
(2) 변수간 상관분석을 통한 관계 파악 208
(3) 단거리 평균과 장거리 평균의 산점도를 통한 관계 파악 208
6.5 미국 50개 주의 폭행 체포와 살인 체포 212
(1) 데이터 설명 212
(2) 변수간 상관분석을 통한 관계 파악 213
(3) 변수간 산점도를 통한 관계 파악 213
⋆ 추가 분석 과제 / 215

Chapter 07 빅데이터분석을 위한 통계방법2: 인자분석, 주성분분석, 군집분석 221

7.0 주성분분석, 인자분석, 군집분석 설명 223
(1) 주성분분석 223
(2) 인자분석 224
(3) 군집분석 225
⋆ 추가 분석 과제 / 232
7.1 도시별 복지기능 특성자료 233
(1) 데이터 설명 233
(2) 변수간 상관분석을 통한 관계 파악 233
(3) 데이터 표준화와 상관분석 235
(4) 사회복지기능 평균과 문화시설의 산점도 238
7.2 국내 상위기업 재무자료 242
(1) 데이터 설명 242
(2) 그룹별 변수간 상관분석을 통한 관계 파악 242
(2.1) SK그룹 242
(2.2) 삼성그룹 244
(2.3) 현대그룹 245
(3) 전체 변수 간 상관분석을 통한 관계 파악 247
(4) 주식(Capital_stock) 변수와 재무 평균 변수의 산점도 247
7.3 도시별 사회경제적 현상 251
(1) 데이터 설명 251
(2) 변수간 상관분석을 통한 관계 파악 251
(3) 평균주택가격과 그 외 사회현상에 대한 산점도 252
7.4 미국 50개 주의 폭행 체포와 살인 체포 254
(1) 데이터 설명 254
(2) 변수간 상관분석을 통한 관계 파악 254
(3) 살인체포와 강간체포의 산점도 255
7.5 파산한 기업과 건실한 기업의 재무조사 257
(1) 데이터 설명 257
(2) 변수간 상관분석을 통한 관계 파악 258
(3) 기업 자산 평균과 유동자산/순매출에 대한 산점도 258
7.6 성적에 따른 대학원 입학여부 261
(1) 데이터 설명 261
(2) GPA와 GMAT에 대한 산점도 261
⋆ 추가 분석 과제 / 263

찾아보기 / 266
저자소개 / 271


정보제공 : Aladin

관련분야 신착자료

Brumback, Babette A (2022)
Hummel, Ruth M (2021)
Anderson, David R (2021)