HOME > 상세정보

상세정보

파이썬 웹 스크래핑 : 다양한 상황 해결을 통한 웹 스크랩

파이썬 웹 스크래핑 : 다양한 상황 해결을 통한 웹 스크랩 (27회 대출)

자료유형
단행본
개인저자
Mitchell, Ryan (Ryan E.) 김영하, 역
서명 / 저자사항
파이썬 웹 스크래핑 : 다양한 상황 해결을 통한 웹 스크랩 / 리차드 로손 지음 ; 김영하 옮김
발행사항
서울 :   에이콘,   2017  
형태사항
222 p. : 삽화 ; 24 cm
원표제
Web scraping with Python : collecting data from the modern web
ISBN
9788960779594 9788960772106 (Set)
일반주기
색인수록  
일반주제명
Python (Computer program language) Data mining Automatic data collection systems
000 00000nam c2200205 c 4500
001 000045904669
005 20170502085554
007 ta
008 170501s2017 ulka 001c kor
020 ▼a 9788960779594 ▼g 94000
020 1 ▼a 9788960772106 (Set)
040 ▼a 211009 ▼c 211009 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 005.133 ▼2 23
085 ▼a 005.133 ▼2 DDCK
090 ▼a 005.133 ▼b P999 2017z2
100 1 ▼a Mitchell, Ryan ▼q (Ryan E.)
245 1 0 ▼a 파이썬 웹 스크래핑 : ▼b 다양한 상황 해결을 통한 웹 스크랩 / ▼d 리차드 로손 지음 ; ▼e 김영하 옮김
246 1 9 ▼a Web scraping with Python : ▼b collecting data from the modern web
260 ▼a 서울 : ▼b 에이콘, ▼c 2017
300 ▼a 222 p. : ▼b 삽화 ; ▼c 24 cm
500 ▼a 색인수록
650 0 ▼a Python (Computer program language)
650 0 ▼a Data mining
650 0 ▼a Automatic data collection systems
700 1 ▼a 김영하, ▼e
900 1 0 ▼a 로손, 리차드, ▼e
945 ▼a KLPA

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 005.133 P999 2017z2 등록번호 121240140 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 2 소장처 세종학술정보원/과학기술실/ 청구기호 005.133 P999 2017z2 등록번호 151337472 도서상태 대출가능 반납예정일 예약 서비스
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 005.133 P999 2017z2 등록번호 121240140 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/과학기술실/ 청구기호 005.133 P999 2017z2 등록번호 151337472 도서상태 대출가능 반납예정일 예약 서비스

컨텐츠정보

책소개

웹 스크랩의 기본 개념과 파이썬 3를 이용해 쉽고 빠르게 웹 스크래핑하는 방법을 알려준다. 웹사이트를 다운로드해 정규식을 통해서 스크랩하는 방식부터 파이썬 라이브러리까지 점차 개념을 확장해나가 기초를 다질 수 있다. 여러 상황을 고려한 예제로 기본 원리를 테스트할 수 있으며, 배운 방법을 실제 서비스를 제공하는 웹사이트에 적용하는 방법도 배울 수 있다.

웹 스크랩의 기본 개념과 파이썬 3를 이용해 쉽고 빠르게 웹 스크래핑하는 방법을 알려준다. 웹사이트를 다운로드해 정규식을 통해서 스크랩하는 방식부터 파이썬 라이브러리(Scrapy, Selenium)까지 점차 개념을 확장해나가 기초를 다질 수 있다. 여러 상황을 고려한 예제로 기본 원리를 테스트할 수 있으며, 배운 방법을 실제 서비스를 제공하는 웹사이트에 적용하는 방법도 배울 수 있다.

★ 이 책에서 다루는 내용 ★
■ 웹사이트 수집을 위한 링크 선택 방법
■ lxml을 이용한 웹사이트 데이터 추출
■ 동시에 여러 웹 페이지를 처리하기 위해 스레드를 사용하는 크롤러 제작
■ 대역폭을 줄이기 위한 다운로드 캐시
■ 자바스크립트 기반 웹사이트를 분석하는 방법
■ 폼과 세션을 처리하는 방법
■ 캡차(CAPTCHA)로 보호되는 웹사이트 처리
■ AJAX 호출 리버스 엔지니어링
■ Scrapy로 고급 스크래퍼 제작

★ 이 책의 대상 독자 ★
웹사이트에서 데이터를 스크랩하기 위해 믿을 만한 프로그램을 만들고자 하는 개발자를 대상으로 하는 책으로 파이썬 개발 경험이 있다고 가정하고 설명한다. 파이썬이 아니더라도 다른 프로그래밍 경험이 있어도 이 책을 읽고 이해할 수 있다.

★ 이 책의 구성 ★
1장, '웹 스크래핑 소개'에서는 웹 스크래핑을 소개하고 웹사이트를 수집하는 방법을 알아본다.
2장, '데이터 스크래핑'에서는 웹 페이지에서 데이터를 추출하는 방법을 알아본다.
3장, '캐시를 사용한 다운로드'에서는 결과를 캐시 처리해 다시 다운로드하지 않는 방법을 알아본다.
4장, '병렬 다운로드'에서는 동시에 다운로드해 더 빠르게 데이터를 스크랩하는 방법을 알아본다.
5장, '동적 생성 콘텐츠'에서는 동적 웹사이트에서 데이터를 추출하는 방법을 알아본다.
6장, '폼 처리'에서는 찾고자 하는 데이터에 접근하기 위해 폼을 처리하는 방법을 알아본다.
7장, '캡차(CAPTCHA) 해결'에서는 캡차 이미지에 의해 보호되는 데이터에 접근하는 방법을 알아본다.
8장, 'Scrapy'에서는 유명한 고급 Scrapy 프레임워크를 사용하는 방법을 알아본다.
9장, '실제 웹사이트 적용'에서는 지금까지 다뤄진 웹 스크래핑 기술을 실제 웹사이트에 적용해본다.


정보제공 : Aladin

저자소개

리처드 로손(지은이)

호주 출신이며 멜버른 대학교에서 컴퓨터 과학을 전공했다. 졸업 후 50여 개국에서 원격으로 작업하면서 세계를 여행하며 웹 스크래핑 전문 회사를 세웠다. 유창한 에스페란토 연설자로 만다린어와 한국어로 회화가 가능하며, 오픈 소스 소프트웨어 기여와 번역에 적극적이다. 현재 옥스포드 대학에서 대학원 과정을 공부하고 있으며 여가 시간에는 자율 비행 드론 개발을 즐긴다. 링크드인(https://www.linkedin.com/in/richardpenman)에서 이력을 확인할 수 있다.

김영하(옮긴이)

타임게이트에서 소프트웨어연구소 수석 연구원으로서 머신 데이터 플랫폼(Splunk)와 모니터링 솔루션 eG의 기술 지원을 담당하고 있다. 또한 타임게이트 자체 제품인 가상화 관리 및 모니터링을 개발한다

정보제공 : Aladin

목차

1장. 웹 스크래핑 소개 
__웹 스크래핑은 언제 필요한가? 
 __웹 스크래핑은 합법적인가? 
 __사전 조사 
____robots.txt 확인 
____Sitemap 살펴보기 
____웹사이트의 크기 추정 
____웹사이트에 사용된 웹 기술 확인 
____웹사이트 소유자 찾기 
__첫 번째 웹사이트 크롤링 
____웹사이트 다운로드 
______다운로드 재시도 
______사용자 에이전트 설정 
____Sitemap 크롤러 
____ID 반복 크롤러 
____링크 크롤러 
______고급 기능 
__요약 

2장. 데이터 스크래핑 
__웹 페이지 분석 
__웹 페이지를 스크랩하는 3가지 방법 
____정규식 
____Beautiful Soup 
 ____Lxml 
 ______CSS 선택자 
____성능 비교 
______스크래핑 결과 
____개요 
____링크 크롤러에 스크랩 콜백 추가 
__요약 

3장. 캐시를 사용한 다운로드 
__링크 크롤러에 캐시 기능 추가 
__디스크 캐시 사용 
____기능 구현 
____캐시 테스트 
____저장 디스크량 줄이기 
____오래된 데이터 삭제 
____디스크 캐시의 단점 
__데이터베이스 캐시 
____NoSQL이란? 
 ____몽고DB 설치 
____몽고DB 개요 
____몽고DB 캐시 구현 
____압축 
____캐시 테스트 
__요약 

4장. 병렬 다운로드 
__100만 개 웹 페이지 
____Alexa 목록 분석 
__순차적 크롤러 
__스레드 크롤러 
____스레드와 프로세스 동작 방식 
____구현 
____상호프로세스 크롤러 
__성능 
__요약 

5장. 동적 생성 콘텐츠 
__동적 웹 페이지 예제 
__동적 웹 페이지 분석 
____에지 케이스 
__동적 웹 페이지 렌더링 
____PyQt와 PySide 
 ____자바스크립트 실행 
____웹킷으로 웹사이트 처리 
______결과 기다리기 
______렌더 클래스 
____셀레니움 
__요약 

6장. 폼 처리 
__로그인 폼 
____웹 브라우저에서 쿠키 가져오기 
__내용을 최신화하는 로그인 스크립트 확장 
__Mechanize 모듈로 폼 처리 자동화 
__요약 

7장. 캡차 해결 
__계정 등록 
____캡차 이미지 로딩 
__광학 문자 인식 
____개선할 사항 
__복잡한 캡차 해결 
____캡차 처리 서비스 이용 
____9kw 시작 
______9kw CAPTCHA API 
 ____등록 통합 
__요약 

8장. Scrapy 
 __설치 
__프로젝트 시작 
____모델 정의 
____스파이더 생성 
______설정 조정 
______스파이더 테스트 
____shell 커맨드로 스크래핑 
____결과 확인 
____크롤링 중단과 재개 
__포르티아로 시각적 스크래핑 
____설치 
____어노테이션 
____스파이더 개선 
____결과 확인 
__Scrapely로 수집 자동화 
__요약 

9장. 실제 웹사이트 적용 
__구글 검색 엔진 
__페이스북 
____웹사이트 
____API 
 __갭 
__BMW 
 __요약

관련분야 신착자료

Ramamurthy, Bina (2021)