고려대학교 세종학술정보원

이전 결과로 돌아가기 검색화면

MARC

파이썬으로 웹 크롤러 만들기 : 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법 (53회 대출)

자료유형

단행본

개인저자

Mitchell, Ryan (Ryan E.) 한선용, 역

서명 / 저자사항

파이썬으로 웹 크롤러 만들기 : 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법 / 라이언 미첼 지음 ; 한선용 옮김

발행사항

서울 : 한빛미디어, 2019

형태사항

356 p. : 삽화 ; 24 cm

원표제

Web scraping with Python : collecting data from the modern web (2nd ed.)

ISBN

9791162241639

일반주기

색인수록

000		00000cam c2200205 c 4500
001		000045983850
005		20250325100538
007		ta
008		190516s2019 ulka 001c kor
020		▼a 9791162241639 ▼g 93000
035		▼a (KERIS)REQ000045720358
040		▼a 211062 ▼c 211062 ▼d 211009
041	1	▼a kor ▼h eng
082	0 4	▼a 005.133 ▼2 23
085		▼a 005.133 ▼2 DDCK
090		▼a 005.133 ▼b P999 2019z9
100	1	▼a Mitchell, Ryan ▼q (Ryan E.) ▼0 AUTH(211009)126173
245	1 0	▼a 파이썬으로 웹 크롤러 만들기 : ▼b 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법 / ▼d 라이언 미첼 지음 ; ▼e 한선용 옮김
246	1 9	▼a Web scraping with Python : ▼b collecting data from the modern web ▼g (2nd ed.)
260		▼a 서울 : ▼b 한빛미디어, ▼c 2019
300		▼a 356 p. : ▼b 삽화 ; ▼c 24 cm
500		▼a 색인수록
700	1	▼a 한선용, ▼e 역 ▼0 AUTH(211009)4656
900	1 0	▼a 미첼, 라이언, ▼e 저

소장정보

No.	소장처	청구기호	등록번호	도서상태	반납예정일	예약	서비스
No. 1	소장처 중앙도서관/제2자료실(3층)/	청구기호 005.133 P999 2019z9	등록번호 111814291 (15회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M
No. 2	소장처 과학도서관/Sci-Info(1층서고)/	청구기호 005.133 P999 2019z9	등록번호 121249928 (27회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M
No. 3	소장처 세종학술정보원/과학기술실(5층)/	청구기호 005.133 P999 2019z9	등록번호 151346116 (11회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M ?

No.	소장처	청구기호	등록번호	도서상태	반납예정일	예약	서비스
No. 1	소장처 중앙도서관/제2자료실(3층)/	청구기호 005.133 P999 2019z9	등록번호 111814291 (15회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M

No.	소장처	청구기호	등록번호	도서상태	반납예정일	예약	서비스
No. 1	소장처 과학도서관/Sci-Info(1층서고)/	청구기호 005.133 P999 2019z9	등록번호 121249928 (27회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M

No.	소장처	청구기호	등록번호	도서상태	반납예정일	예약	서비스
No. 1	소장처 세종학술정보원/과학기술실(5층)/	청구기호 005.133 P999 2019z9	등록번호 151346116 (11회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M ?

컨텐츠정보

책소개

웹 크롤링이라는 주제 하나에 집중하는 책이다. 파이썬과 라이브러리를 이용하여 아주 간단한 웹 크롤러를 만드는 것으로 시작해서, HTML, API 등 웹 기술의 기초부터 데이터 정제 및 저장, 자연어 처리, 이미지 및 텍스트 인식 등 고급 기법까지 종합적으로 살펴본다. 2판은 예제를 추가 및 업데이트했고 모던 웹에서 거의 모든 종류의 데이터를 가져오는 방법을 포괄적으로 다룬다.

웹 어디서든 내가 원하는 데이터를 쏙쏙쏙
웹에 존재한다면 그것이 어떤 형태이든 데이터로 추출할 수 있다. 필요한 무기는 이 책과 파이썬뿐. BeautifulSoup, 셀레니움, 테서랙트 등 강력한 파이썬 라이브러리 사용법과 함께 API, 인증, 이미지 및 텍스트 인식, 로그인 처리 등 웹 크롤링의 기초부터 고급 기법까지 종합적으로 다루는 유일한 책. 실제 업무와 생활에 적용할 수 있는 예제가 가득하다. 2판은 예제를 추가 및 업데이트했고 모던 웹에서 거의 모든 종류의 데이터를 가져오는 방법을 포괄적으로 다룬다.

복잡 다양한 웹에서 우아하게 데이터를 수집하는 방법 A to Z
우리는 생활 속의 많은 부분이 인터넷에서 이루어지는 시대에 살고 있습니다. 그 어느 때보다 많은 데이터로 넘쳐나는 웹 세상에서 필요한 데이터를 가져와 분석하는 일의 중요성도 커졌습니다. 인터넷을 활보하며 데이터를 수집하는 프로그램을 웹 크롤러 혹은 웹 스크레이퍼라고 합니다. 웹 크롤러는 데이터 수집을 자동화하므로 비즈니스 의사 결정에 큰 도움이 되고, 웹사이트 스캐너로 활용할 수도 있어 보안 분야에서도 사용됩니다.
웹 크롤링은 인증 같은 웹 기술에 대한 이해는 물론, 데이터 정제, DB 저장 등 여러 기술에 대한 지식이 필요한 분야에 속합니다. 따라서 프로그래밍 스킬을 향상하는 데에 아주 좋은 주제이며, 과거에는 프로그래밍 전문가만이 웹 크롤러를 만들 수 있었습니다. 하지만 파이썬이라는 배우기 쉬운 언어와 쉽게 쓸 수 있는 각종 라이브러리들이 등장하며 이러한 장벽은 무너졌습니다. 기업 사례뿐만 아니라 음원 차트 추출하기, 서울의 기온 데이터 추출하기, 게시판 문서 다운로더 등 주위를 둘러보면 의외로 많은 생활 속 사례를 찾을 수 있습니다.
『파이썬으로 웹 크롤러 만들기(2판)』는 웹 크롤링이라는 주제 하나에 집중하는 책입니다. 업무상 웹 크롤러를 만들다 푹 빠진 나머지 회사를 나와서도 계속 웹 크롤러를 만들고 있는 개발자가 썼습니다. 파이썬과 라이브러리를 이용하여 아주 간단한 웹 크롤러를 만드는 것으로 시작해서, HTML, API 등 웹 기술의 기초부터 데이터 정제 및 저장, 자연어 처리, 이미지 및 텍스트 인식 등 고급 기법까지 종합적으로 살펴봅니다.
책의 1부는 파이썬과 함께 BeautifulSoup, 스크레이피 같은 라이브러리를 이용하여 아주 간단하게 웹 크롤러를 만들어보며 시작합니다. 나아가 API를 이용한 수집, 데이터를 MySQL로 저장하는 방법, CSV, PDF, 워드 파일을 분석하는 방법까지 필요에 따라 다양한 라이브러리를 활용하여 웹 크롤러를 구현하는 방법에 집중합니다. 위키백과를 크롤링하며 '케빈 베이컨의 여섯 다리'(과연 전 세계 사람은 여섯 다리만 거치면 연결될까요?) 문제를 풀어보는 예제도 있습니다.
2부는 웹 크롤링을 둘러싼 더욱 흥미로운 주제와 기법을 다룹니다. 웹에서 가져온 지저분한 데이터를 정돈하고 정제하는 방법(오픈리파인), 자연어 처리(NLTK), 폼과 로그인 뚫기(requests), 자바스크립트로 만든 동적 페이지 수집하기(셀레니움), 이미지 처리(필로) 및 텍스트 인식(테서랙트), 웹사이트 테스트(unittest), 원격 크롤링(토어) 등 고급 기법과 라이브러리 사용법을 살펴봅니다. 특히 텍스트 인식은 CAPTCHA, 즉 자동 가입 방지 문자를 우회하는 데 유용하며, 크롤링을 막는 방해물을 뚫기 위한 '사람처럼 보이기' 기법은 아예 한 장을 할애해서 자세히 소개합니다.
오늘날 데이터가 넘쳐나는 웹에서 웹 크롤러로 할 수 있는 일은 무궁무진합니다. 필요한 것은 약간의 파이썬 프로그래밍 능력 하나뿐입니다. 나머지는 이 책에서 배울 수 있습니다. 웹 크롤링을 적용하여 업무를 자동화하고 생활 속에서 유용한 통찰을 찾는 데 이 책이 큰 도움이 되리라 믿습니다. 복잡 다양한 웹 세상에서 우아하게 데이터를 수집하고 싶은, '일상의 데이터 분석가'를 꿈꾸는 이들에게 이 책을 권합니다.
이 책은 많은 사랑을 받은 1판에 이어 출간된 원서 2판을 기반으로 합니다. 예제를 추가 및 업데이트했고 모던 웹에서 거의 모든 종류의 데이터를 가져오는 방법을 포괄적으로 다룹니다.

정보제공 :

펼치기

저자소개

라이언 미첼(지은이)

웹 크롤링, 보안, 데이터 과학에 관심이 많은 개발자. 현재 거슨 레만 그룹에서 수석 소프트웨어 엔지니어로 근무하고 있습니다. 프랭클린 W. 올린 공과대학교를 졸업했고 하버드 대학교에서 소프트웨어 엔지니어링 석사 과정을 밟았습니다. 어바인에서 웹 크롤러와 봇을 만들었고, 링크 드라이브에서는 API 및 데이터 분석 도구를 만들었습니다. 금융업 및 유통업 분야에서 웹 크롤링 프로젝트 컨설팅을 하고 있고, 교육과 강연 활동도 활발하게 펼치고 있습니다. 본서 외 저서로 『Instant Web Scraping with Java』(Packt, 2013)가 있습니다.

한선용(옮긴이)

웹 표준과 자바스크립트에 관심이 많은 번역가. 2008년부터 웹 관련 일을 했으며, ‘WCAG 2.0을 위한 일반적 테크닉’ 등의 문서를 번역해 웹에 올렸다. 번역한 책으로 《API 해킹의 모든 것》(2023), 《자바스크립트 완벽 가이드(7판)》(2022), 《한 권으로 끝내는 Node & Express(2판)》(2021), 《CSS 완벽 가이드》(2021), 《CSS 핵심 실용 가이드》(2021), 《나의 첫 파이썬(2판)》(2020), 《파이썬으로 웹 크롤러 만들기(2판)》(2019), 《자바스크립트를 말하다》(2014) 등이 있다.