HOME > Detail View

Detail View

딥러닝 데이터 전처리 입문 : 파이썬과 R로 배우는 데이터 다루기 (Loan 12 times)

Material type
단행본
Personal Author
Visochek, Allan 김창엽, 역 강병호, 역
Title Statement
딥러닝 데이터 전처리 입문 : 파이썬과 R로 배우는 데이터 다루기 / 앨런 비소첵 지음 ; 김창엽, 강병호 옮김
Publication, Distribution, etc
서울 :   에이콘,   2018  
Physical Medium
230 p. : 삽화 ; 24 cm
Series Statement
acorn+PACKT technical book 시리즈
Varied Title
Practical data wrangling : expert techniques for transforming your raw data into a valuable source for analytics
ISBN
9791161751580 9788960772106 (세트)
General Note
색인수록  
000 00000cam c2200205 c 4500
001 000045956077
005 20181002174508
007 ta
008 181002s2018 ulka 001c kor
020 ▼a 9791161751580 ▼g 94000
020 1 ▼a 9788960772106 (세트)
035 ▼a (KERIS)BIB000014832828
040 ▼a 247009 ▼c 247009 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 006.31 ▼2 23
085 ▼a 006.31 ▼2 DDCK
090 ▼a 006.31 ▼b 2018z24
100 1 ▼a Visochek, Allan
245 1 0 ▼a 딥러닝 데이터 전처리 입문 : ▼b 파이썬과 R로 배우는 데이터 다루기 / ▼d 앨런 비소첵 지음 ; ▼e 김창엽, ▼e 강병호 옮김
246 1 9 ▼a Practical data wrangling : ▼b expert techniques for transforming your raw data into a valuable source for analytics
260 ▼a 서울 : ▼b 에이콘, ▼c 2018
300 ▼a 230 p. : ▼b 삽화 ; ▼c 24 cm
440 0 0 ▼a acorn+PACKT technical book 시리즈
500 ▼a 색인수록
700 1 ▼a 김창엽, ▼e
700 1 ▼a 강병호, ▼e
900 1 0 ▼a 비소첵, 앨런, ▼e
945 ▼a KLPA

Holdings Information

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 006.31 2018z24 Accession No. 121246127 Availability Available Due Date Make a Reservation Service B M

Contents information

Book Introduction

실제 데이터 분석에 가장 중요한 기초 데이터 전처리를 다룬다. 데이터 전처리 과정은 머신 러닝을 통해 만든 모델의 성능을 크게 좌우한다. 데이터 분석에 입문한다면 데이터 전처리를 위한 데이터 전처리 개념과 사용 도구, 주요 파일 형식, 정규 표현식 등 꼭 알아야 할 내용을 실습을 통해 쉽게 익힐 수 있다.

★ 이 책에서 다루는 내용 ★

■ 파이썬과 R로 CSV를 읽어 데이터의 통계량 출력하기
■ 데이터 형식과 API를 활용한 데이터 추출에 필요한 프로그래밍 구조 학습
■ 데이터 정리 과정에 필요한 정규 표현식의 효과적인 사용
■ 수치 데이터 분석에 필요한 도구와 패키지 탐색
■ 더 나은 데이터 구조 제어 방법 탐색
■ 프로그래밍 방식을 통한 데이터의 읽기, 검사, 수정, 형태 변경
■ 데이터셋을 불러오고 정제하고 출력하는 프로그램 작성

★ 이 책의 대상 독자 ★

데이터를 분석해보고 싶은 데이터 과학자, 데이터 분석가, 통계학자에게 유용한 책이다. R과 파이썬을 모두 다루기 때문에 큰 도움이 될 것이다

★ 이 책의 구성 ★

1장. '데이터 프로그래밍'에서는 데이터 처리 방법을 논의하고 이 책에서 다루는 내용을 개괄한다.

섹션 1. 데이터를 다루는 일반적인 프로그래밍 방법
2장. '파이썬 프로그래밍 소개'에서는 이 책에서 가장 많이 사용하는 프로그래밍 언어인 파이썬을 소개한다.
3장. '데이터 입력, 탐색, 수정: 1부'에서는 데이터를 처리하는 방법과 JSON 데이터 형식을 소개한다.
4장. '데이터 입력, 탐색, 수정: 2부'에서는 CSV와 XML 데이터 형식을 다룬다.
5장. '텍스트 데이터 처리: 정규 표현식 소개'에서는 정규 표현식을 이용해 주소로부터 도로명을 추출해본다.

섹션 2: 정형 데이터 처리
6장. '수치 데이터 정리: R과 RStudio 소개'에서는 R을 소개하고 RStudio를 이용해 수치 데이터를 정리하는 방법을 소개한다.
7장. 'dplyr을 이용한 데이터 처리 간소화'에서는 데이터를 강력하면서도 간단하게 다룰 수 있는 R의 dplyr 패키지를 소개한다.

섹션 3: 고급 데이터 입출력 방법
8장. '웹에서 데이터 수집하기'에서는 파이썬 API를 이용해 웹에서 데이터를 추출하는 방법을 다룬다.
9장. '대용량 데이터 처리'에서는 대용량 데이터 처리 시 발생할 수 있는 문제점을 논의하고 MongoDB를 이용해 대용량 데이터를 처리해본다.


Information Provided By: : Aladin

Author Introduction

앨런 비소첵(지은이)

코네티컷 주 뉴 헤이븐에서 활동하고 있는 프리랜서 웹 개발자이자 데이터 분석가며, 업무 외적으로 머신 러닝과 인공지능에 관심이 많다. 지식을 가르치고 공유하기를 즐긴다. 유다시티(Udacity)의 데이터 분석 나노 학위(Nanodegree) 프로그램을 수료한 후, 유다시티에서 수개월간 포럼 멘토 및 프로젝트 검수자로 활동하면서 데이터 분석 프로젝트를 수행하는 학생들에게 도움을 줬다. learntoprogram.tv에 기술 자료를 기고하기도 한다.

김창엽(옮긴이)

고려대학교 산업경영공학과 데이터사이언스 & 비즈니스 어낼리틱스(DSBA) 연구실에서 박사 과정을 수료했다. 현재 KT 융합기술원 인프라 연구소에서 머신러닝을 활용한 네트워크 분야 이상 탐지에 대해 연구하고 있다. 그 전에는 안랩에서 9년 동안 근무하며 악성코드 대응 및 침해사고 분석 업무를 수행했다. 번역서로는 에이콘출판사에서 출간한 『예제로 배우는 자연어 처리 기초』(2020), 『머신 러닝을 활용한 컴퓨터 보안』(2019), 『딥러닝 데이터 전처리 입문』(2018), 『케라스로 구현하는 딥러닝과 강화학습』(2017), 『텐서플로 입문』(2016) 등이 있다.

강병호(옮긴이)

한양대학교 공과대학 컴퓨터 공학부 및 동 대학원 컴퓨터 소프트웨어학과를 졸업했다. 안랩과 한국전자통신연구원(ETRI)에서 머신 러닝 기반 보안 기술을 연구했고, 현재는 SK텔레콤에서 머신 러닝 기술을 연구하고 있다.

Information Provided By: : Aladin

Table of Contents

1장. 데이터 프로그래밍 
데이터 처리의 이해 
데이터의 수집과 읽어오기 
데이터 정리 
데이터 형성 및 구조화 
데이터 저장 
데이터 처리 도구 
파이썬 
R 
요약 

2장. 파이썬 프로그래밍 소개 
외부 리소스 
이번 장 살펴보기 
설치 요구 사항 
다른 학습 리소스 
파이썬 2와 파이썬 3의 차이점 
파이썬에서 프로그램 실행 
텍스트 편집기를 사용해 프로그램 작성 및 관리 
터미널을 사용해 프로그램 실행 
동작하지 않면 어떻게 해야 할까? 
데이터 유형, 변수, 파이썬 셸 
숫자: 정수와 실수 
문자열 
부울 데이터 형식 
print 함수 
변수 
배열(파이썬에서의 리스트) 
사전 
복합문 
복합문 문법과 들여쓰기 수준 
for문과 이터러블 
if문 
함수 
프로그램에서 주석 달기 
프로그래머 리소스 
공식 문서 
온라인 포럼과 메일링 리스트 
요약 

3장. 데이터 입력, 탐색, 수정: 1부 
외부 리소스 
이번 장 살펴보기 
설치 요구 사항 
데이터 
파일시스템 설정 
기본 데이터 처리 작업 흐름 소개 
JSON 파일 형식 소개 
파이썬의 파일 I/O를 이용한 파일 열기와 닫기 
open 함수와 파일 객체 
파일 구조: 데이터 저장을 위한 좋은 방법 
파일 열기 
파일 내용 읽기 
파이썬 모듈 
json 모듈을 이용한 JSON 파일 파싱 
데이터 파일의 내용 탐색 
데이터의 주요 내용 추출 
데이터상의 모든 변수 출력 
데이터셋 수정 
원본 데이터셋에서 데이터 변수 추출 
수정된 데이터를 새 파일에 기록 
터미널에서 입출력 파일명 지정 
터미널에서 파일명 지정 
요약 

4장. 데이터 입력, 탐색, 수정: 2부 
이번 장 살펴보기 
파일시스템 설정 
데이터 
pandas 설치 
CSV 형식 이해 
csv 모듈 소개 
CSV 데이터를 읽고 처리하기 위해 csv 모듈 사용 
CSV 데이터 기록을 위한 csv 모듈 사용 
데이터를 읽고 처리하기 위해 pandas 모듈 사용 
2011년 총 도로 길이 다시 계산 
비표준 CSV 인코딩과 다이얼렉트 처리 
XML 이해 
XML과 JSON 비교 
XML 데이터 파싱을 위한 xmletreeElementTree 모듈 사용 
Xpath 
요약 

5장. 텍스트 데이터 처리: 정규 표현식 소개 
이번 장 살펴보기 
데이터 
파일 구조 설정 
패턴 인식의 필요성 
정규 표현식 소개 
정규 표현식 작성 
특수 문자 
공백 문자 탐색 
시작 문자 탐색 
종료 문자 탐색 
문자 또는 숫자의 범위 탐색 
여러 패턴의 탐색 
하나의 문자가 아닌 문자열 시퀀스 탐색 
패턴 결합 
문자열로부터 패턴 추출 
정규 표현식의 split() 함수 
파이썬 정규 표현식 문서 
패턴 탐색 
패턴 정량화 
도로명 주소를 탐색하는 정규 표현식 작성 
탐색 횟수 측정 
탐색 정확도 검증 
패턴 추출 
출력 결과 파일 저장 
요약 

6장. 수치 데이터 정리: R과 RStudio 소개 
이번 장 살펴보기 

데이터 
디렉터리 구조 
R과 Rstudio 설치 
R과 RStudio 소개 
RStudio 연습 
R 명령어 실행 
작업 디렉터리 지정 
데이터 불러오기 
R 데이터프레임 
R 벡터 
R 데이터프레임 인덱싱 
R을 활용한 2001년 데이터 분석 
기본적인 이상치 탐지 및 제거 
NA 값 처리 
결측치 제거 
결측치를 상수로 대체 
결측치 대체 
변수명과 내용 
요약 

7장. dplyr을 이용한 데이터 처리 간소화 
이번 장 살펴보기 
데이터 
파일시스템 구성 
dplyr 및 tibble 패키지 설치 
dplyr 소개 
dplyr 시작하기 
명령어 체인 사용 
데이터프레임의 행 필터링 
항목별로 데이터 요약하기 
dplyr을 이용한 코드 재작성 
요약 

8장. 웹에서 데이터 수집하기 
이번 장 살펴보기 
파일시스템 설정 
requests 모듈 설치 
인터넷 연결 
API 소개 
API를 통해 파이썬으로 데이터 추출하기 
결과 필터링을 위한 URL 파라미터 사용 
요약 

9장. 대용량 데이터 처리 
이번 장 살펴보기 
시스템 요구 사항 
데이터 
파일시스템 설정 
MongoDB 설치 
시간 계획 
정리 
컴퓨터 메모리 이해 
데이터베이스 이해 
MongoDB 소개 
파이썬에서 MongoDB 사용하기 
요약

New Arrivals Books in Related Fields

Baumer, Benjamin (2021)
데이터분석과인공지능활용편찬위원회 (2021)
Harrison, Matt (2021)