HOME > 상세정보

상세정보

(Pandas를 이용한) 데이터 분석 실습 : 라이브러리로 다양한 실제 데이터 분석 (7회 대출)

자료유형
단행본
개인저자
Molin, Stefanie 장기식, 역 김경환, 역 노용환, 역
서명 / 저자사항
(Pandas를 이용한) 데이터 분석 실습 : 라이브러리로 다양한 실제 데이터 분석 / 스테파니 몰린 지음 ; 장기식, 김경환, 노용환 옮김
발행사항
서울 :   에이콘출판,   2023  
형태사항
846 p. : 삽화(일부천연색), 도표 ; 24 cm
원표제
Hands-on data analysis with pandas : a Python data science handbook for data collection, wrangling, analysis, and visualization (2nd ed.)
ISBN
9791161756950
일반주기
부록: 데이터 분석 작업흐름, 적절한 시각화 방법 선택, 머신러닝 작업흐름  
서지주기
참고문헌과 색인수록
일반주제명
Python (Computer program language) Data mining
000 00000nam c2200205 c 4500
001 000046136419
005 20230508115300
007 ta
008 221212s2023 ulkad b 001a kor
020 ▼a 9791161756950 ▼g 93000
040 ▼a 211009 ▼c 211009 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 005.13/3 ▼2 23
085 ▼a 005.133 ▼2 DDCK
090 ▼a 005.133 ▼b P999 2023
100 1 ▼a Molin, Stefanie ▼0 AUTH(211009)150840
245 2 0 ▼a (Pandas를 이용한) 데이터 분석 실습 : ▼b 라이브러리로 다양한 실제 데이터 분석 / ▼d 스테파니 몰린 지음 ; ▼e 장기식, ▼e 김경환, ▼e 노용환 옮김
246 1 9 ▼a Hands-on data analysis with pandas : ▼b a Python data science handbook for data collection, wrangling, analysis, and visualization ▼g (2nd ed.)
260 ▼a 서울 : ▼b 에이콘출판, ▼c 2023
300 ▼a 846 p. : ▼b 삽화(일부천연색), 도표 ; ▼c 24 cm
500 ▼a 부록: 데이터 분석 작업흐름, 적절한 시각화 방법 선택, 머신러닝 작업흐름
504 ▼a 참고문헌과 색인수록
650 0 ▼a Python (Computer program language)
650 0 ▼a Data mining
700 1 ▼a 장기식, ▼e▼0 AUTH(211009)92802
700 1 ▼a 김경환, ▼e
700 1 ▼a 노용환, ▼e
900 1 0 ▼a 몰린, 스테파니, ▼e
945 ▼a ITMT

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 005.133 P999 2023 등록번호 111874262 도서상태 대출중 반납예정일 2023-07-24 예약 예약가능 R 서비스 M
No. 2 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 005.133 P999 2023 등록번호 121261351 도서상태 대출중 반납예정일 2023-06-26 예약 예약가능 R 서비스 M
No. 3 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 005.133 P999 2023 등록번호 121261816 도서상태 대출중 반납예정일 2023-06-16 예약 서비스 M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 005.133 P999 2023 등록번호 111874262 도서상태 대출중 반납예정일 2023-07-24 예약 예약가능 R 서비스 M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 005.133 P999 2023 등록번호 121261351 도서상태 대출중 반납예정일 2023-06-26 예약 예약가능 R 서비스 M
No. 2 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 005.133 P999 2023 등록번호 121261816 도서상태 대출중 반납예정일 2023-06-16 예약 서비스 M

컨텐츠정보

책소개

pandas는 파이썬에서 데이터 과학을 위한 강력하고 인기 있는 라이브러리다. 이 책은 주식 시장과 모의 해킹 시도, 기상 동향, 지진, 와인, 천문학 데이터 등 실제 데이터에 pandas를 이용한 데이터 분석 실습을 제공한다. pandas는 표 형식의 데이터를 효율적으로 다룰 수 있는 기능을 제공해 데이터 랭글링(data wrangling)과 시각화를 쉽게 할 수 있다.

데이터 분석 방법을 배운 다음에 다양한 응용 프로그램을 살펴본다. 파이썬 패키지를 구축한 다음, 데이터 시각화와 데이터 랭클링, 그리고 머신러닝을 위해 널리 사용되는 Matplotlib와 Seaborn, 넘파이(NumPy), Scikit-learn과 같은 추가 라이브러리를 사용해 주가 분석, 이상 탐지, 회귀, 군집화, 분류 문제에 도전한다. 이 책을 읽으면 파이썬으로 여러분만의 데이터 과학 프로젝트를 수행할 준비가 돼 있을 것이다.

◈ 이 책에서 다루는 내용 ◈

◆ 데이터 분석가와 과학자가 데이터를 수집하고 분석하는 방법 이해
◆ 파이썬으로 데이터 분석과 데이터 랭글링
◆ 여러 출처의 데이터를 결합, 그룹화 그리고 집계
◆ pandas와 matplotlib, seaborn으로 데이터 시각화
◆ 머신러닝 알고리듬으로 패턴을 식별, 예측
◆ 파이썬 데이터 과학 라이브러리를 사용해 실제 데이터세트 분석
◆ pandas로 일반적인 데이터 표현과 분석 문제 해결
◆ 분석 코드를 재사용할 수 있도록 파이썬 스크립트와 모듈, 그리고 패키지 생성

◈ 이 책의 대상 독자 ◈

이 책은 데이터 과학을 프로젝트에 적용하고 데이터 과학자와 협업하거나 소프트웨어 엔지니어와 함께 머신러닝 제품 코드 작업을 진행하고자 파이썬으로 데이터 과학을 배우려는 다양한 수준의 경험을 가진 사람들을 대상으로 한다. 다음과 같은 경험이 있다면 이 책을 최대로 활용할 수 있을 것이다.
R이나 SAS 또는 MATLAB과 같은 다른 언어로 데이터 과학을 경험하고 여러분의 작업을 파이썬으로 전환하고자 pandas를 배우려는 사람, 그리고 파이썬 경험이 있으며 파이썬을 사용해 데이터 과학을 배우려는 사람 모두가 읽기에 적합하다.

◈ 이 책의 구성 ◈

1장, '데이터 분석 소개 데이터 분석과 통계학의 기초'에서는 파이썬에서의 데이터 작업과 주피터 노트북(Jupyter Notebook) 사용을 위한 환경 설정 과정을 안내한다.
2장, 'pandas 데이터프레임으로 작업하기'에서는 pandas 라이브러리를 소개하고 데이터프레임으로 작업하기 위한 기본 지식을 설명한다.
3장, 'pandas로 데이터 랭글링하기'에서는 데이터 조작(data manipulation) 과정을 설명하고 API로 통한 데이터 수집 방법을 소개하며 pandas로 데이터 정제(data cleaning)와 재구성(reshaping)을 안내한다.
4장, 'pandas로 데이터프레임 집계하기'에서는 데이터프레임에 질의(query)하고 병합하는 방법과 데이터프레임에서 이동 평균과 집계를 포함해 복잡한 계산을 하는 방법, 시계열 데이터를 효율적으로 다루는 방법을 다룬다.
5장, 'pandas와 matplotlib로 데이터 시각화하기'에서는 파이썬에서 matplotlib 라이브러리를 사용해 데이터를 시각화하는 방법과 pandas 객체에서 직접 시각화하는 방법을 소개한다.
6장, 'seaborn과 사용자 정의 기술로 그림 그리기'에서는 seaborn 라이브러리를 사용해 긴 형식의 데이터를 시각화하는 방법과 발표에 사용할 수 있도록 시각화를 사용자에게 맞게 수정할 수 있는 도구를 소개하면서 데이터 시각화에 관해 설명을 이어간다.
7장, '금융 분석-비트코인과 주식시장'에서는 주가 분석을 위한 파이썬 패키지를 만들고자 1장부터 6장까지 배운 모든 내용을 다룬다.
8장, '규칙 기반 이상 탐지'에서는 데이터를 시뮬레이션한 다음, 이상 탐지를 위한 규칙 기반 전략을 사용해서 웹 사이트에 인증을 시도하려는 해커를 잡고자 1장부터 6장까지 배운 모든 내용을 다룬다.
9장, '파이썬으로 머신러닝 시작하기'에서는 머신러닝과 Scikit-learn 라이브러리를 사용해 머신러닝 모델을 구축하는 방법을 소개한다.
10장, '예측 더 잘하기-모델 최적화'에서는 머신러닝 모델의 성능을 조정하고 개선하기 위한 전략을 알아본다.

◈ 옮긴이의 말 ◈

이 책을 번역하면서 데이터 분석을 처음 공부했을 때가 생각났다. 학교에서 배웠던 기본 통계학을 다시 공부하면서 관련 내용을 코드로 구현하고, 그 과정 및 결과를 그래프로 시각화하면서 개념을 다시 잡으면서 고생했었다.

이런 책이 있었더라면 많은 사람이 역자처럼 고생하지 않고 쉽게 데이터 분석에 입문하지 않을까 생각하면서 번역을 시작했다. 그러나 번역을 다 끝내고 편집된 원고를 다시 읽어보면서 이 책에 담겨있는 많은 내용을 제대로 번역하지 못한 것 같아 다소 아쉬운 생각이 든다. 기본적인 내용이 많이 담겨있지만, 더 필요한 통계학과 코딩 기본 지식을 더 보충했더라면 더 좋은 책이 되었을 것으로 생각한다. 하지만 이는 번역서로의 범위를 넘어설 뿐만 아니라 데이터 분석 입문을 위한 이 책의 목적에도 부합하지 않는다.

저자도 강조했듯이 역자들 또한 데이터 분석에서 가장 중요하다고 생각하는 것은 '왜 데이터 분석해야 하는가?'이다. 많은 데이터 분석 관련 정보는 데이터를 읽고, 시각화를 위해 전처리하고 시각화를 하는 과정에만 집중하고 있다. 그러나 데이터 분석은 데이터를 시각화하는 것이 목적이 아니라는 것을 재차 강조하고 싶다. 데이터 분석은 데이터분석가를 위한 것이 아니라 기업활동에서 의사결정권자에게 필요한 정보를 데이터분석가가 데이터를 가공해 전달하기 위한 도구라는 것을 명심해야 한다. 단순히 데이터를 시각화하는 것에 사로잡히지 말고, 우리가 하려는 '목적'을 정확히 알고, 목적 달성에 필요한 데이터를 수집해야 하며, '목적'을 위해 데이터를 어떻게 가공하고 시각화해야만 의사결정권자가 필요한 정보를 한눈에 알아보고 이해할 수 있는가는 고민해야 한다. 이것이 역자들이 생각하는 데이터 분석의 목적이다.

이 책을 읽고 실습하면서 필요한 배경지식은 이 책에 각 장의 보충 자료 외에 통계학 등의 관련 서적이나 MOOC 등의 강의를 통해 습득하길 바란다. 또한 데이터 시각화를 위해서는 동적으로 시각화를 할 수 있도록 Tableau나 Plotly 등의 오픈소스 시각화 도구를 활용하는 방법을 추가로 익히길 바란다.


정보제공 : Aladin

저자소개

스테파니 몰린(지은이)

뉴욕 블룸버그 LP의 데이터 과학자이자 소프트웨어 엔지니어로서 정보보호 분야에서 이상 탐지(anomaly detection)와 데이터 수집을 위한 도구 개발, 지식 공유와 같이 어려운 문제를 담당하고 있다. AdTech와 FinTech 산업에서 데이터 과학, 이상 탐지 솔루션 설계, 머신러닝에 R과 파이썬을 활용하는 데 많은 경험이 있으며, 컬럼비아 대학의 후 재단 공과 및 응용과학 대학(Fu Foundation School of Engineering and Applied Science)에서 운용 연구(OR, Operations Research)로 석사 학위를 받았으며 경제학과 기업가 정신 및 혁신(entrepreneurship and innovation)을 부전공했다. 세계를 여행하고, 새로운 요리법을 개발하며, 사람과 컴퓨터 간에 사용되는 새로운 언어를 배우는 것을 즐긴다.

장기식(옮긴이)

경희대학교에서 대수학을 전공했으며, 고려대학교 정보보호대학원에서 박사 학위를 취득했다. 이후 약 10년간 경찰청 사이버안전국 디지털포렌식센터에서 디지털 포렌식 업무를 담당했다. 경찰대학 치안정책연구소에서 데이터 분석을 접한 이후 데이터 분석을 기반으로 한 머신러닝 기술을 연구했으며, 이 경험을 바탕으로 현재 아이브스 CTO 및 AI LAB 연구소장으로 딥러닝 기반 영상 및 음향·음성 보안 솔루션과 데이터 분석 플랫폼 개발 및 연구를 책임지고 있다. 번역서로는 『보안을 위한 효율적인 방법 PKI』(인포북, 2003)와 『EnCase 컴퓨터 포렌식』(에이콘, 2015), 『인텔리전스 기반 사고 대응』(에이콘, 2019), 『적대적 머신러닝』(에이콘, 2020), 『사이버 보안을 위한 머신러닝 쿡북』(에이콘, 2021), 『양자 암호 시스템의 시작』(에이콘, 2021), 『스크래치로 배워보자! 머신러닝』(에이콘, 2022), 『Pandas를 이용한 데이터 분석 실습 2/e』(에이콘, 2022)이 있다.

노용환(옮긴이)

군 전역 후 전공을 포기하고 컴퓨터공학을 독학으로 공부한 이후 1999년 오픈소스 소프트웨어 경진대회에서 정보통신부장관상을 수상한 이후로 보안 소프트웨어 개발에 눈을 뜨게 되어 2015년에는 '올해의 안랩인상'을 받았다. 다양한 사이버보안 회사에서 게임보안 및 정부기관의 주요 보안 프로젝트를 수행하면서 개발자이자 화이트해커로의 명성을 얻은 후 Microsoft MVP를 역임했다. 2016년 쏘마를 창업해 고도화된 보안 위협 대응을 위한 사이버 위협 헌팅 플랫폼 MONSTER와 APT 공격 시뮬레이터 CHEIRON를 개발해 서비스하고 있으며, BoB 보안인재 양성프로그램의 멘토이며 Kimchicon 보안컨퍼런스 reviewer로도 활동하고 있다. 저서로는 『해킹과 보안 내가 최고』(영진닷컴, 2000)가 있다.

김경환(옮긴이)

강산이 세 번 바뀌는 동안 꾸준하게 개발자의 길을 걸어왔다. 코딩 자체를 좋아하지만 다양한 전문 분야의 요구사항을 분석하면서 새로운 지식을 습득하고 체계화하는 것을 즐긴다. 첫 직장에서 경험한 데이터베이스를 시작으로 데이터웨어하우스, 검색엔진, 빅데이터, 머신러닝에 이르는 여정에서 얻게 된 '살아 숨 쉬는 지혜'를 DIKW 이론을 빌어 주변에 설파하고 있다. '배운 것 남 주자'를 실천하기 위해 한양대학교 대학원 산업공학과 겸임교수, 서울과학종합대학원 AI·빅데이터 MBA 객원교수로 자료구조와 알고리듬, DIKW와 Spark 강의도 하는 주경야독러다. 현재 쏘마에서 '보안 위협, 그 너머로'를 목표로 고도화된 보안 위협 대응을 위한 사이버 위협 헌팅 플랫폼 MONSTER와 APT 공격 시뮬레이터 CHEIRON를 구현하는 데 매진하고 있다.

정보제공 : Aladin

목차

1부. pandas 시작하기
1장 데이터 분석 소개
__1장 교재
__데이터 분석 기초
____데이터 수집
____데이터 랭글링
____탐색적 데이터 분석
____결론 도출
__통계 기초
____표본 추출
____기술통계학
____추론통계학
__가상 환경 설정하기
____가상 환경
____필수 파이썬 패키지 설치하기
____왜 pandas인가?
____주피터 노트북
__요약
__연습 문제
__참고 자료
2장. pandas DataFrame으로 작업하기
__2장 교재
__pandas 데이터 구조
____시리즈
____인덱스
____DataFrame
__pandas DataFrame 만들기
____파이썬 객체로 DataFrame 만들기
____파일로 DataFrame 만들기
____데이터베이스로 DataFrame 만들기
____API에서 DataFrame 만들기
__DataFrame 객체 확인하기
____데이터 검사하기
____데이터 설명 및 요약하기
__데이터의 부분집합 선택하기
____열 선택하기
____슬라이싱
____인덱싱
____필터링
__데이터 추가하고 제거하기
____새로운 데이터 만들기
____원하지 않는 데이터 삭제하기
__요약
__연습 문제
__참고 자료
__데이터
2부. pandas로 데이터분석하기
3장. pandas로 데이터 랭글링하기
__3장 교재
__데이터 랭글링 이해하기
____데이터 정제
____데이터 변환
____데이터 강화
__기온 데이터를 찾고 수집하고자 API 사용하기
__데이터 정제
____열 이름 바꾸기
____유형 변환
____데이터 재정렬, 재인덱싱, 정렬
__데이터 재구성하기
____DataFrame 전치
____DataFrame 피보팅
____DataFrame 멜팅
__중복, 결측, 유효하지 않은 데이터 다루기
____문제가 있는 데이터 찾기
____문제 완화하기
__요약
__연습 문제
__참고 자료
4장. pandas DataFrame 집계하기
__4장 교재
__DataFrame을 데이터베이스처럼 작업하기
____DataFrame 질의하기
____DataFrame 병합하기
__데이터 강화를 위한 DataFrame 연산
____산술과 통계
____데이터 이산화
____함수 적용하기
____윈도우 계산
__파이프
__데이터 집계
____DataFrame 요약하기
____그룹으로 집계하기
____피봇 테이블과 교차표
__시계열 데이터로 작업하기
____시간을 기준으로 선택하고 필터링하기
____시차 데이터 이동하기
____차분 데이터
____재표본추출
____시계열 데이터 병합하기
__요약
__연습 문제
__참고 자료
5장. pandas와 matplotlib를 사용한 데이터 시각화
__5장 교재
__matplotlib 소개
____기초
____그림 구성 요소
____추가 옵션
__pandas로 그림 그리기
____시간의 경과에 따른 변화
____변수 간의 관계
____분포
____개수와 빈도수
__pandas.plotting 모듈
____산포행렬
____시차 그림
____자기상관 그림
____붓스트랩 그림
__요약
__연습 문제
__참고 자료
6장. seaborn과 사용자 정의 기술로 그림 그리기
__6장 교재
__seaborn으로 고급 그림 그리기
____범주형 데이터
____상관관계와 히트맵
____회귀그림
____패시팅
__matplotlib로 그림 형식 지정하기
____제목과 축 이름
____범례
____축 형식 지정하기
__시각화 사용자 정의하기
____참조선 추가하기
____음영 영역
____주석
____색상
____질감
__요약
__연습 문제
__참고 자료
3부. pandas를 이용한 실제 분석
7장. 금융 분석-비트코인과 주식 시장
__7장 교재
__파이썬 패키지 만들기
____패키지 구조
____stock_analysis 패키지 개요
____UML 다이어그램
__금융 데이터 수집하기
____StockReader 클래스
____야후! 금융에서 과거 데이터 수집하기
__탐색적 데이터 분석
____Visualizer 클래스 패밀리
____주가 시각화하기
____다중 자산 시각화하기
__금융 상품의 기술적 분석
____StockAnalyzer 클래스
____AssetGroupAnalyzer 클래스
____자산 비교하기
__과거 데이터를 사용한 수익률 모델링
____StockModeler 클래스
____시계열 분해
____ARIMA
____statsmodels의 선형회귀
____모델 비교
__요약
__연습 문제
__참고 자료
8장. 규칙 기반 비정상 행위 탐지
__8장 교재
__로그인 시도 시뮬레이션
____가정
____login_attempt_simulator 패키지
____터미널에서 시뮬레이션하기
__탐색적 데이터 분석
__규칙 기반 이상 탐지 구현
____백분율 차
____튜키 울타리
____Z-점수
____성능 평가
__요약
__연습 문제
__참고 자료
4부. scikit-learn을 이용한 머신러닝 소개
9장. 파이썬에서 머신러닝 시작하기
__9장 교재
__머신러닝 개요
____머신러닝의 종류
____일반적인 작업
____파이썬으로 머신러닝하기
__탐색적 데이터 분석
____레드 와인 품질 데이터
__화이트 와인과 레드 와인의 화학 성분 데이터
____행성과 외계 행성 데이터
__데이터 전처리
____학습 데이터와 평가 데이터
____데이터 척도화 및 중심화
____데이터 부호화
____대치
____추가 변환기
____데이터 파이프라인 구축
__군집화
____k-평균
____군집 결과 평가
__회귀
____선형회귀
____회귀 결과 분석
__분류
____로지스틱 회귀
____분류 결과 평가
__요약
__연습 문제
__참고 자료
10장. 예측 더 잘하기-모델 최적화
__10장 교재
__격자검색을 통한 초매개변수 튜닝
__특성 공학
____상호작용 항과 다항식 특성
____차원축소
____특성 합집합
____특성 중요도
__앙상블 방법
____확률숲
____경사부스팅
____투표
__분류 예측 신뢰도 검사
__계급불균형 해결
____과소표본추출
____과대표본추출
__정칙화
__요약
__연습 문제
__참고 자료
11장. 머신러닝 기반 비정상 행위 탐지
__11장 교재
__시뮬레이션 로그인 시도 데이터 탐색
__비정상 행위 탐지에 비지도학습 모델 활용
____고립숲
____국소특이점인자
____모델 비교
__지도학습 비정상 행위 탐지 구현
____기준 설정
____로지스틱 회귀
__피드백 되돌림과 온라인학습 통합
____PartialFitPipeline 하위 클래스 만들기
____확률적 경사하강 분류기
__요약
__연습 문제
__참고 자료
5부. 추가 자료
12장. 나아갈 길
__데이터 출처
____파이썬 패키지
____데이터 검색
____API
____웹사이트
__데이터 작업 연습
__파이썬 연습
__요약
__연습 문제
__참고 자료
해답
부록

관련분야 신착자료