| 000 | 00000cam c2200205 c 4500 | |
| 001 | 000045917641 | |
| 005 | 20171014154241 | |
| 007 | ta | |
| 008 | 171013s2017 ulka 001c kor | |
| 020 | ▼a 9788966264063 ▼g 93000 | |
| 035 | ▼a (KERIS)BIB000014569703 | |
| 040 | ▼a 211044 ▼c 211044 ▼d 211044 ▼d 211009 | |
| 041 | 1 | ▼a kor ▼h eng |
| 082 | 0 4 | ▼a 005.133 ▼2 23 |
| 085 | ▼a 005.133 ▼2 DDCK | |
| 090 | ▼a 005.133 ▼b P999 2017z10 | |
| 100 | 1 | ▼a Kazil, Jacqueline |
| 245 | 1 0 | ▼a 파이썬을 활용한 데이터 길들이기 : ▼b 데이터 전처리 효율화 전략 / ▼d 재클린 카질, ▼e 캐서린 자멀 지음 ; ▼e 이정윤, ▼e 이제원, ▼e 임훤 옮김 |
| 246 | 1 9 | ▼a Data Wrangling with Python |
| 260 | ▼a 서울 : ▼b 인사이트, ▼c 2017 | |
| 300 | ▼a xvii, 518 p. : ▼b 삽화 ; ▼c 24 cm | |
| 440 | 0 0 | ▼a 프로그래밍인사이트 |
| 500 | ▼a 부록: A. 프로그래밍 언어 비교, B. 초보자를 위한 파이썬 참고자료, C. 커맨드라인 배우기 외 | |
| 500 | ▼a 색인수록 | |
| 650 | 0 | ▼a Python (Computer program language) |
| 650 | 0 | ▼a Data mining |
| 700 | 1 | ▼a Jarmul, Katharine, ▼e 저 |
| 700 | 1 | ▼a 이정윤, ▼e 역 |
| 700 | 1 | ▼a 이제원, ▼e 역 |
| 700 | 1 | ▼a 임훤, ▼e 역 |
| 900 | 1 0 | ▼a 카질, 재클린, ▼e 저 |
| 900 | 1 0 | ▼a 자멀, 캐서린, ▼e 저 |
| 945 | ▼a KLPA |
소장정보
| No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
|---|---|---|---|---|---|---|---|
| No. 1 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 005.133 P999 2017z10 | 등록번호 121241872 (28회 대출) | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
컨텐츠정보
책소개
데이터 수집, 정제, 가공과 같은 반복적인 전처리 과정을 파이썬 프로그래밍을 통해 효과적으로 작업하는 방법이 담겨 있다. 연구 문제를 만들어 내는 것부터 시작해 데이터를 수집, 정리, 분석 및 표시하는 방법을 배우고, 데이터 처리 프로세스를 자동화하는 스크립트를 작성해본다. 이를 통해 방대하여 접근이 어렵고 귀찮다고 생각했던 데이터에서 보다 편리하게 정보를 모을 수 있다.
미가공된 데이터를 수집하고, 복사하고, 스프레드시트에 붙여 넣어 쓸모 있는 형태로 정리하는 일은 데이터 분석 과정에서 꼭 필요하지만 가장 지루한 일이다. 매번 거쳐야 하는 이 수작업을 더 효율적으로, 더 똑똑하게 할 수는 없을까? 이에 대한 답을 『파이썬을 활용한 데이터 길들이기』에서 찾아 보자! 여기에는 데이터 수집, 정제, 가공과 같은 반복적인 전처리 과정을 파이썬 프로그래밍을 통해 효과적으로 작업하는 방법이 담겨 있다.
이 책은 일반적인 데이터 분석 프로젝트의 흐름을 따라 단계별로 구성되어 있다. 연구 문제를 만들어 내는 것부터 시작해 데이터를 수집, 정리, 분석 및 표시하는 방법을 배우고, 데이터 처리 프로세스를 자동화하는 스크립트를 작성해본다. 이를 통해 예전에는 너무 지저분하거나 방대하여 접근이 어렵고 귀찮다고 생각했던 데이터에서 보다 편리하게 정보를 모을 수 있을 것이다.
매번 되풀이되는 데이터 분석 초기 단계를 좀 더 효율적으로 작업하고 싶었던 독자라면 이 책을 통해 데이터 분석 능력을 한 단계 업그레이드할 수 있을 것이다.
정보제공 :
저자소개
재클린 카질(지은이)
인간 행동과 개방형 데이터에 열정적인 데이터 과학자이자 소프트웨어 개발자이다. 파이썬과 데이터 과학 수업을 가르치고 있으며, 전직 대통령 혁신 펠로우(Presidential Innovation Fellows)이자 정부 기술 조직인 18F의 공동창립자이다. 그 전에는 워싱턴 포스트에서 데이터 저널리스트로 일했다.
캐서린 자멀(지은이)
독일 베를린에 살고 있는 데이터 과학자이자 파이썬 개발자다. 여러 기업을 대상으로 데이터 추출, 수집, 모델링과 같은 서비스를 제공하는 데이터 과학 컨설팅 회사인 Kjamistan을 운영하고 있다. 2008년부터 파이썬으로 프로그램을 개발하고 있으며, 2010년부터 파이썬으로 웹을 스크래핑하기 시작했다. 데이터 분석과 머신 러닝을 하기 위해 웹 스크래핑을 활용하는 다양한 회사에서 일한 적이 있다. 웹을 스크래핑하지 않을 때는 트위터(@kjam) 또는 블로그(https://blog.kjamistan.com)를 통해 자신의 생각과 활동을 작성하고 있다.
이제원(옮긴이)
KAIST 문화기술대학원 졸업 후 데이터몬스터즈를 창업하여 스마트팩토리, 보건의료, 과학정책 등 다양한 분야의 데이터 기반 연구 컨설팅을 하고 있다. 《R Cookbook》, 《R Graphics Cookbook》, 《파이썬을 활용한 데이터 길들이기》, 《복잡계와 데이터 과학》을 우리말로 옮겼다.
이정윤(옮긴이)
데이터를 직접 모으고 그 안에서 재미있는 현상을 발견하는 것을 좋아한다. 현재 미국 노스웨스턴 대학교 켈로그 경영대학원에서 마케팅 박사 과정 중이다.
임훤(옮긴이)
KAIST 전산학과 웹사이언스대학원에서 석사를 취득하고 박사 과정을 수료했다. 뭐든지 직접 만들어 보는 것을 좋아하는 편이며 현재 자연어 처리와 머신 러닝 분야에서 연구를 진행하고 있다.
목차
1장 파이썬 소개 __왜 파이썬인가? __파이썬 시작하기 ____파이썬 버전 선택하기 ____컴퓨터에 파이썬 설치하기 ____파이썬 실행 테스트하기 ____pip 설치하기 ____코드 에디터 설치하기 ____선택사항: IPython 설치하기 __요약 2장 파이썬 기초 __기본적인 데이터 유형 ____문자열 ____정수와 실수 __데이터 컨테이너 ____변수 ____리스트 ____딕셔너리 __각 데이터 유형으로 무엇을 할 수 있나? ____문자열 메서드: 문자열이 할 수 있는 것들 ____수치형(numerical) 메서드: 숫자가 할 수 있는 것들 ____리스트 메서드: 리스트가 할 수 있는 것들 ____딕셔너리 메서드: 딕셔너리가 할 수 있는 것들 __유용한 도구: type, dir 그리고 help ____type ____dir ____help __모두 종합하기 __이 모든 것이 무엇을 의미하는가? __요약 3장 기계가 읽을 수 있는 데이터 __CSV 데이터 ____CSV 데이터 불러오기 ____파일에 코드 저장하기; 명령 프롬프트에서 실행하기 __JSON 데이터 ____JSON 데이터 불러오기 __XML 데이터 ____XML 데이터 불러오기 __요약 4장 엑셀 파일 다루기 __파이썬 패키지 설치하기 __엑셀 파일 파싱하기 __파싱 시작하기 __요약 5장 파이썬에서의 PDF와 문제 해결 __PDF 사용을 자제하라! __PDF 파싱에 대한 프로그램적인 접근 ____slate를 사용하여 열고 읽기 ____PDF를 텍스트로 변환하기 __pdfminer를 사용해 PDF 파싱하기 __문제 해결 방법 배우기 ____예제: 표 추출 사용하기, 다른 라이브러리 사용하기 ____예제: 수동으로 데이터 클리닝하기 ____예제: 다른 도구 사용하기 __흔치 않은 파일 유형 __요약 6장 데이터 수집 및 저장하기 __모든 데이터가 평등하게 창조되지는 않았다 __사실 확인하기 __가독성, 깔끔함 그리고 데이터의 지속성 __데이터를 어디에서 구할 수 있을까 ____전화 걸기 ____미 정부 데이터 ____전 세계 정부 및 도시 오픈 데이터 ____조직 및 비정부조직(NGO) 데이터 ____교육 및 대학 데이터 ____의료 및 과학 데이터 ____크라우드소싱 데이터 및 API __사례 연구: 데이터 예시 조사 ____에볼라 사태 ____기차 안전 ____축구 선수 연봉 ____아동 노동 __데이터 저장하기: 언제, 왜, 어떻게? __데이터베이스: 간단한 소개 ____관계형 데이터베이스: MySQL과 PostgreSQL ____비관계형 데이터베이스: NoSQL ____파이썬에서 로컬 데이터베이스 설정하기 __언제 간단한 파일을 사용하나 ____클라우드 저장과 파이썬 ____로컬 저장과 파이썬 __대안적인 데이터 저장 방법 __요약 7장 데이터 클리닝하기: 조사, 매칭 그리고 서식화 __왜 데이터를 클리닝하는가? __데이터 클리닝 기초 ____데이터 클리닝을 위한 값 찾기 ____데이터 서식화하기 ____이상치와 불량 데이터 찾기 ____중복 기록 찾기 ____퍼지 매칭 ____정규식 매칭 ____중복 기록 처리하기 __요약 8장 데이터 클리닝하기: 표준화와 스크립트 __데이터 정규화 및 표준화 __데이터 저장하기 __프로젝트에 적절한 데이터 클리닝 방식 결정하기 __클리닝 스크립트 만들기 __새 데이터 테스트하기 __요약 9장 데이터 탐색과 분석 __데이터 탐색하기 ____데이터 불러오기 ____표 함수 탐색하기 ____다수의 데이터세트 결합하기 ____상관관계 판별하기 ____이상치 판별하기 ____그룹화하기 ____추가 탐색하기 __데이터 분석하기 ____데이터를 분리하고 집중하기 ____데이터가 무엇을 말하고 있나? ____결론 도출하기 ____결론 문서화 하기 __요약 10장 데이터 표현하기 __스토리텔링의 함정을 방지하기 ____스토리를 어떻게 전달할 것인가? ____청중을 알라 __데이터 시각화하기 ____차트 ____시간 관련 데이터 ____지도 ____인터랙티브 ____단어 ____이미지, 비디오, 일러스트 __프레젠테이션 도구 __데이터 게재하기 ____가능한 사이트 사용하기 ____오픈소스 플랫폼: 새로운 사이트 만들기 ____Jupyter(기존 IPython Notebooks) __요약 11장 웹 스크래핑 : 웹에서 데이터를 획득하고 저장하기 __스크래핑 대상과 방법 __웹 페이지 분석하기 ____요소 검사 : 마크업 구조 ____Network/Timeline 탭 : 페이지 로드 현황보기 ____콘솔 탭 : 자바스크립트와 상호작용하기 ____페이지 심층분석 __페이지 가져오기 : 페이지 요청 방법 __뷰티풀수프를 사용하여 웹페이지 읽어 들이기 __LXML로 웹페이지 읽어들이기 ____XPath 사례 __요약 12장 고급 웹 스크래핑 : 스크린 스크래퍼와 스파이더 __브라우저 기반 파싱 ____셀레니움(Selenium)으로 하는 스크린 리딩 ____Ghost.Py로 스크린 리딩하기 __웹 스파이더링 ____Scrapy를 이용한 스파이더 구축 ____Scrapy로 웹사이트 전체를 크롤링하기 __네트워크 : 인터넷의 작동 원리와 스크립트가 망가지는 이유 __변화하는 인터넷(또는 당신의 스크립트가 망가지는 이유) __몇 가지 주의 사항 __요약 13장 API __API에서 제공하는 기능들 ____REST API vs. 스트리밍 API ____요청 제한 ____데이터 볼륨 계층 ____API 키와 토큰 __REST API로부터 간단한 데이터 받아 오기 __트위터 REST API를 사용한 고급 데이터 수집 __트위터 스트리밍 API를 통한 고급 데이터 수집 __요약 14장 자동화와 규모 확장 __왜 자동화를 해야 할까? __자동화 단계 __무엇이 잘못될 수 있는가? __자동화 수행 위치 __자동화를 위한 특별한 도구들 ____로컬 파일과 인자값(argv), 그리고 설정 파일 사용하기 ____데이터 처리를 위해 클라우드 사용하기 ____병렬 프로세싱 사용하기 ____분산 프로세싱 사용하기 __단순 자동화 ____크론잡(CronJob) ____웹 인터페이스 ____주피터 노트북(Jupyter Notebooks) __대규모 자동화 ____셀러리(Celery) : 큐 기반 자동화 ____Ansible을 이용한 운영 자동화 __자동화 모니터링하기 ____파이썬으로 로깅(logging)하기 ____자동화된 메시지 보내기 ____파일 업로드 및 기타 보고 방법 ____로깅 및 모니터링 서비스 __완벽한 시스템은 없다 __요약 15장 결론 __데이터 랭글러의 의무 __데이터 랭글링을 넘어 ____더 나은 데이터 분석가가 되기 ____더 나은 개발자가 되기 ____더 나은 시각적 스토리텔러가 되기 ____더 나은 시스템 아키텍트가 되기 __이젠 무엇을 할까? 부록 A 프로그래밍 언어 비교 부록 B 초보자를 위한 파이썬 참고자료 부록 C 커맨드라인 배우기 부록 D 파이썬 고급 설정 부록 E 파이썬 주의사항 부록 F IPython 도움말 부록 G 아마존 웹 서비스 이용하기



