HOME > Detail View

Detail View

파이썬을 활용한 데이터 길들이기 : 데이터 전처리 효율화 전략 (Loan 22 times)

Material type
단행본
Personal Author
Kazil, Jacqueline Jarmul, Katharine, 저 이정윤, 역 이제원, 역 임훤, 역
Title Statement
파이썬을 활용한 데이터 길들이기 : 데이터 전처리 효율화 전략 / 재클린 카질, 캐서린 자멀 지음 ; 이정윤, 이제원, 임훤 옮김
Publication, Distribution, etc
서울 :   인사이트,   2017  
Physical Medium
xvii, 518 p. : 삽화 ; 24 cm
Series Statement
프로그래밍인사이트
Varied Title
Data Wrangling with Python
ISBN
9788966264063
General Note
부록: A. 프로그래밍 언어 비교, B. 초보자를 위한 파이썬 참고자료, C. 커맨드라인 배우기 외  
색인수록  
Subject Added Entry-Topical Term
Python (Computer program language) Data mining
000 00000cam c2200205 c 4500
001 000045917641
005 20171014154241
007 ta
008 171013s2017 ulka 001c kor
020 ▼a 9788966264063 ▼g 93000
035 ▼a (KERIS)BIB000014569703
040 ▼a 211044 ▼c 211044 ▼d 211044 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 005.133 ▼2 23
085 ▼a 005.133 ▼2 DDCK
090 ▼a 005.133 ▼b P999 2017z10
100 1 ▼a Kazil, Jacqueline
245 1 0 ▼a 파이썬을 활용한 데이터 길들이기 : ▼b 데이터 전처리 효율화 전략 / ▼d 재클린 카질, ▼e 캐서린 자멀 지음 ; ▼e 이정윤, ▼e 이제원, ▼e 임훤 옮김
246 1 9 ▼a Data Wrangling with Python
260 ▼a 서울 : ▼b 인사이트, ▼c 2017
300 ▼a xvii, 518 p. : ▼b 삽화 ; ▼c 24 cm
440 0 0 ▼a 프로그래밍인사이트
500 ▼a 부록: A. 프로그래밍 언어 비교, B. 초보자를 위한 파이썬 참고자료, C. 커맨드라인 배우기 외
500 ▼a 색인수록
650 0 ▼a Python (Computer program language)
650 0 ▼a Data mining
700 1 ▼a Jarmul, Katharine, ▼e
700 1 ▼a 이정윤, ▼e
700 1 ▼a 이제원, ▼e
700 1 ▼a 임훤, ▼e
900 1 0 ▼a 카질, 재클린, ▼e
900 1 0 ▼a 자멀, 캐서린, ▼e
945 ▼a KLPA

Holdings Information

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 005.133 P999 2017z10 Accession No. 121241872 Availability Available Due Date Make a Reservation Service B M

Contents information

Book Introduction

데이터 수집, 정제, 가공과 같은 반복적인 전처리 과정을 파이썬 프로그래밍을 통해 효과적으로 작업하는 방법이 담겨 있다. 연구 문제를 만들어 내는 것부터 시작해 데이터를 수집, 정리, 분석 및 표시하는 방법을 배우고, 데이터 처리 프로세스를 자동화하는 스크립트를 작성해본다. 이를 통해 방대하여 접근이 어렵고 귀찮다고 생각했던 데이터에서 보다 편리하게 정보를 모을 수 있다.

미가공된 데이터를 수집하고, 복사하고, 스프레드시트에 붙여 넣어 쓸모 있는 형태로 정리하는 일은 데이터 분석 과정에서 꼭 필요하지만 가장 지루한 일이다. 매번 거쳐야 하는 이 수작업을 더 효율적으로, 더 똑똑하게 할 수는 없을까? 이에 대한 답을 『파이썬을 활용한 데이터 길들이기』에서 찾아 보자! 여기에는 데이터 수집, 정제, 가공과 같은 반복적인 전처리 과정을 파이썬 프로그래밍을 통해 효과적으로 작업하는 방법이 담겨 있다.

이 책은 일반적인 데이터 분석 프로젝트의 흐름을 따라 단계별로 구성되어 있다. 연구 문제를 만들어 내는 것부터 시작해 데이터를 수집, 정리, 분석 및 표시하는 방법을 배우고, 데이터 처리 프로세스를 자동화하는 스크립트를 작성해본다. 이를 통해 예전에는 너무 지저분하거나 방대하여 접근이 어렵고 귀찮다고 생각했던 데이터에서 보다 편리하게 정보를 모을 수 있을 것이다.

매번 되풀이되는 데이터 분석 초기 단계를 좀 더 효율적으로 작업하고 싶었던 독자라면 이 책을 통해 데이터 분석 능력을 한 단계 업그레이드할 수 있을 것이다.


Information Provided By: : Aladin

Author Introduction

재클린 카질(지은이)

인간 행동과 개방형 데이터에 열정적인 데이터 과학자이자 소프트웨어 개발자이다. 파이썬과 데이터 과학 수업을 가르치고 있으며, 전직 대통령 혁신 펠로우(Presidential Innovation Fellows)이자 정부 기술 조직인 18F의 공동창립자이다. 그 전에는 워싱턴 포스트에서 데이터 저널리스트로 일했다.

캐서린 자멀(지은이)

독일 베를린에 살고 있는 데이터 과학자이자 파이썬 개발자다. 여러 기업을 대상으로 데이터 추출, 수집, 모델링과 같은 서비스를 제공하는 데이터 과학 컨설팅 회사인 Kjamistan을 운영하고 있다. 2008년부터 파이썬으로 프로그램을 개발하고 있으며, 2010년부터 파이썬으로 웹을 스크래핑하기 시작했다. 데이터 분석과 머신 러닝을 하기 위해 웹 스크래핑을 활용하는 다양한 회사에서 일한 적이 있다. 웹을 스크래핑하지 않을 때는 트위터(@kjam) 또는 블로그(https://blog.kjamistan.com)를 통해 자신의 생각과 활동을 작성하고 있다.

이제원(옮긴이)

KAIST 문화기술대학원 졸업 후 데이터몬스터즈를 창업하여 스마트팩토리, 보건의료, 과학정책 등 다양한 분야의 데이터 기반 연구 컨설팅을 하고 있다. 《R Cookbook》, 《R Graphics Cookbook》, 《파이썬을 활용한 데이터 길들이기》, 《복잡계와 데이터 과학》을 우리말로 옮겼다.

이정윤(옮긴이)

데이터를 직접 모으고 그 안에서 재미있는 현상을 발견하는 것을 좋아한다. 현재 미국 노스웨스턴 대학교 켈로그 경영대학원에서 마케팅 박사 과정 중이다.

임훤(옮긴이)

KAIST 전산학과 웹사이언스대학원에서 석사를 취득하고 박사 과정을 수료했다. 뭐든지 직접 만들어 보는 것을 좋아하는 편이며 현재 자연어 처리와 머신 러닝 분야에서 연구를 진행하고 있다.

Information Provided By: : Aladin

Table of Contents

1장 파이썬 소개 
__왜 파이썬인가? 
__파이썬 시작하기 
____파이썬 버전 선택하기 
____컴퓨터에 파이썬 설치하기 
____파이썬 실행 테스트하기 
____pip 설치하기 
____코드 에디터 설치하기 
____선택사항: IPython 설치하기 
__요약 

2장 파이썬 기초 
__기본적인 데이터 유형 
____문자열 
____정수와 실수 
__데이터 컨테이너 
____변수 
____리스트 
____딕셔너리 
__각 데이터 유형으로 무엇을 할 수 있나? 
____문자열 메서드: 문자열이 할 수 있는 것들 
____수치형(numerical) 메서드: 숫자가 할 수 있는 것들 
____리스트 메서드: 리스트가 할 수 있는 것들 
____딕셔너리 메서드: 딕셔너리가 할 수 있는 것들 
__유용한 도구: type, dir 그리고 help 
____type 
____dir 
____help 
__모두 종합하기 
__이 모든 것이 무엇을 의미하는가? 
__요약 

3장 기계가 읽을 수 있는 데이터 
__CSV 데이터 
____CSV 데이터 불러오기 
____파일에 코드 저장하기; 명령 프롬프트에서 실행하기 
__JSON 데이터
____JSON 데이터 불러오기 
__XML 데이터 
____XML 데이터 불러오기 
__요약 

4장 엑셀 파일 다루기 
__파이썬 패키지 설치하기 
__엑셀 파일 파싱하기 
__파싱 시작하기 
__요약 

5장 파이썬에서의 PDF와 문제 해결 
__PDF 사용을 자제하라! 
__PDF 파싱에 대한 프로그램적인 접근 
____slate를 사용하여 열고 읽기
____PDF를 텍스트로 변환하기 
__pdfminer를 사용해 PDF 파싱하기 
__문제 해결 방법 배우기 
____예제: 표 추출 사용하기, 다른 라이브러리 사용하기 
____예제: 수동으로 데이터 클리닝하기 
____예제: 다른 도구 사용하기 
__흔치 않은 파일 유형 
__요약 

6장 데이터 수집 및 저장하기 
__모든 데이터가 평등하게 창조되지는 않았다 
__사실 확인하기 
__가독성, 깔끔함 그리고 데이터의 지속성 
__데이터를 어디에서 구할 수 있을까 
____전화 걸기 
____미 정부 데이터 
____전 세계 정부 및 도시 오픈 데이터 
____조직 및 비정부조직(NGO) 데이터 
____교육 및 대학 데이터 
____의료 및 과학 데이터 
____크라우드소싱 데이터 및 API 
__사례 연구: 데이터 예시 조사 
____에볼라 사태 
____기차 안전 
____축구 선수 연봉 
____아동 노동 
__데이터 저장하기: 언제, 왜, 어떻게? 
__데이터베이스: 간단한 소개 
____관계형 데이터베이스: MySQL과 PostgreSQL 
____비관계형 데이터베이스: NoSQL 
____파이썬에서 로컬 데이터베이스 설정하기 
__언제 간단한 파일을 사용하나 
____클라우드 저장과 파이썬 
____로컬 저장과 파이썬 
__대안적인 데이터 저장 방법 
__요약 

7장 데이터 클리닝하기: 조사, 매칭 그리고 서식화 
__왜 데이터를 클리닝하는가? 
__데이터 클리닝 기초 
____데이터 클리닝을 위한 값 찾기 
____데이터 서식화하기 
____이상치와 불량 데이터 찾기 
____중복 기록 찾기 
____퍼지 매칭 
____정규식 매칭 
____중복 기록 처리하기 
__요약 

8장 데이터 클리닝하기: 표준화와 스크립트 
__데이터 정규화 및 표준화 
__데이터 저장하기 
__프로젝트에 적절한 데이터 클리닝 방식 결정하기 
__클리닝 스크립트 만들기 
__새 데이터 테스트하기 
__요약 

9장 데이터 탐색과 분석 
__데이터 탐색하기 
____데이터 불러오기 
____표 함수 탐색하기 
____다수의 데이터세트 결합하기 
____상관관계 판별하기 
____이상치 판별하기 
____그룹화하기 
____추가 탐색하기 
__데이터 분석하기 
____데이터를 분리하고 집중하기 
____데이터가 무엇을 말하고 있나? 
____결론 도출하기 
____결론 문서화 하기 
__요약 

10장 데이터 표현하기 
__스토리텔링의 함정을 방지하기 
____스토리를 어떻게 전달할 것인가? 
____청중을 알라 
__데이터 시각화하기 
____차트 
____시간 관련 데이터 
____지도 
____인터랙티브 
____단어 
____이미지, 비디오, 일러스트 
__프레젠테이션 도구
__데이터 게재하기
____가능한 사이트 사용하기 
____오픈소스 플랫폼: 새로운 사이트 만들기 
____Jupyter(기존 IPython Notebooks) 
__요약 

11장 웹 스크래핑 : 웹에서 데이터를 획득하고 저장하기 
__스크래핑 대상과 방법 
__웹 페이지 분석하기 
____요소 검사 : 마크업 구조 
____Network/Timeline 탭 : 페이지 로드 현황보기 
____콘솔 탭 : 자바스크립트와 상호작용하기 
____페이지 심층분석 
__페이지 가져오기 : 페이지 요청 방법 
__뷰티풀수프를 사용하여 웹페이지 읽어 들이기 
__LXML로 웹페이지 읽어들이기 
____XPath 사례 
__요약 

12장 고급 웹 스크래핑 : 스크린 스크래퍼와 스파이더 
__브라우저 기반 파싱 
____셀레니움(Selenium)으로 하는 스크린 리딩 
____Ghost.Py로 스크린 리딩하기 
__웹 스파이더링 
____Scrapy를 이용한 스파이더 구축 
____Scrapy로 웹사이트 전체를 크롤링하기 
__네트워크 : 인터넷의 작동 원리와 스크립트가 망가지는 이유 
__변화하는 인터넷(또는 당신의 스크립트가 망가지는 이유) 
__몇 가지 주의 사항 
__요약 

13장 API 
__API에서 제공하는 기능들 
____REST API vs. 스트리밍 API
____요청 제한 
____데이터 볼륨 계층 
____API 키와 토큰 
__REST API로부터 간단한 데이터 받아 오기 
__트위터 REST API를 사용한 고급 데이터 수집 
__트위터 스트리밍 API를 통한 고급 데이터 수집 
__요약 

14장 자동화와 규모 확장 
__왜 자동화를 해야 할까? 
__자동화 단계 
__무엇이 잘못될 수 있는가? 
__자동화 수행 위치 
__자동화를 위한 특별한 도구들 
____로컬 파일과 인자값(argv), 그리고 설정 파일 사용하기 
____데이터 처리를 위해 클라우드 사용하기 
____병렬 프로세싱 사용하기 
____분산 프로세싱 사용하기 
__단순 자동화 
____크론잡(CronJob) 
____웹 인터페이스 
____주피터 노트북(Jupyter Notebooks) 
__대규모 자동화 
____셀러리(Celery) : 큐 기반 자동화 
____Ansible을 이용한 운영 자동화 
__자동화 모니터링하기 
____파이썬으로 로깅(logging)하기 
____자동화된 메시지 보내기 
____파일 업로드 및 기타 보고 방법 
____로깅 및 모니터링 서비스 
__완벽한 시스템은 없다 
__요약 

15장 결론 
__데이터 랭글러의 의무 
__데이터 랭글링을 넘어 
____더 나은 데이터 분석가가 되기 
____더 나은 개발자가 되기 
____더 나은 시각적 스토리텔러가 되기 
____더 나은 시스템 아키텍트가 되기 
__이젠 무엇을 할까? 

부록 A 프로그래밍 언어 비교 
부록 B 초보자를 위한 파이썬 참고자료 
부록 C 커맨드라인 배우기 
부록 D 파이썬 고급 설정 
부록 E 파이썬 주의사항 
부록 F IPython 도움말 
부록 G 아마존 웹 서비스 이용하기

New Arrivals Books in Related Fields

Ramamurthy, Bina (2021)
윤관식 (2020)