고려대학교 세종학술정보원

이전 결과로 돌아가기 검색화면

MARC

피처 엔지니어링, 제대로 시작하기 : 데이터에서 효과적으로 정보를 추출하는 원리와 기법 (41회 대출)

자료유형

단행본

개인저자

Zheng, Alice Casari, Amanda, 저 김우현, 역

서명 / 저자사항

피처 엔지니어링, 제대로 시작하기 : 데이터에서 효과적으로 정보를 추출하는 원리와 기법 / 앨리스 젱, 아만다 카사리 지음 ; 김우현 옮김

발행사항

서울 : 에이콘, 2019

형태사항

278 p. : 삽화 ; 24 cm

총서사항

에이콘 데이터 과학 시리즈

원표제

Feature engineering for machine learning : principles and techniques for data scientists

ISBN

9791161752426 9788960771031 (Set)

일반주기

부록: 선형 모델링과 선형대수 기초

서지주기

참고문헌과 색인수록

일반주제명

Machine learning Data mining

000		00000cam c2200205 c 4500
001		000045971299
005		20190216123829
007		ta
008		190216s2019 ulka b 001c kor
020		▼a 9791161752426 ▼g 94000
020	1	▼a 9788960771031 (Set)
035		▼a (KERIS)BIB000015006676
040		▼a 244009 ▼c 244009 ▼d 211009
041	1	▼a kor ▼h eng
082	0 4	▼a 006.31 ▼2 23
085		▼a 006.31 ▼2 DDCK
090		▼a 006.31 ▼b 2019z2
100	1	▼a Zheng, Alice
245	1 0	▼a 피처 엔지니어링, 제대로 시작하기 : ▼b 데이터에서 효과적으로 정보를 추출하는 원리와 기법 / ▼d 앨리스 젱, ▼e 아만다 카사리 지음 ; ▼e 김우현 옮김
246	1 9	▼a Feature engineering for machine learning : ▼b principles and techniques for data scientists
260		▼a 서울 : ▼b 에이콘, ▼c 2019
300		▼a 278 p. : ▼b 삽화 ; ▼c 24 cm
440	0 0	▼a 에이콘 데이터 과학 시리즈
500		▼a 부록: 선형 모델링과 선형대수 기초
504		▼a 참고문헌과 색인수록
650	0	▼a Machine learning
650	0	▼a Data mining
700	1	▼a Casari, Amanda, ▼e 저
700	1	▼a 김우현, ▼e 역
900	1 0	▼a 젱, 앨리스, ▼e 저
900	1 0	▼a 카사리, 아만다, ▼e 저
945		▼a KLPA

소장정보

No.	소장처	청구기호	등록번호	도서상태	반납예정일	예약	서비스
No. 1	소장처 중앙도서관/제2자료실(3층)/	청구기호 006.31 2019z2	등록번호 111815252 (10회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M
No. 2	소장처 과학도서관/Sci-Info(1층서고)/	청구기호 006.31 2019z2	등록번호 121247930 (16회 대출)	도서상태 대출중	반납예정일 2026-04-08	예약	서비스 M
No. 3	소장처 과학도서관/Sci-Info(1층서고)/	청구기호 006.31 2019z2	등록번호 521004748 (10회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M
No. 4	소장처 세종학술정보원/과학기술실(5층)/	청구기호 006.31 2019z2	등록번호 151346271 (2회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M ?
No. 5	소장처 세종학술정보원/과학기술실(5층)/	청구기호 006.31 2019z2	등록번호 151349885 (3회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M ?

No.	소장처	청구기호	등록번호	도서상태	반납예정일	예약	서비스
No. 1	소장처 중앙도서관/제2자료실(3층)/	청구기호 006.31 2019z2	등록번호 111815252 (10회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M

No.	소장처	청구기호	등록번호	도서상태	반납예정일	예약	서비스
No. 1	소장처 과학도서관/Sci-Info(1층서고)/	청구기호 006.31 2019z2	등록번호 121247930 (16회 대출)	도서상태 대출중	반납예정일 2026-04-08	예약	서비스 M
No. 2	소장처 과학도서관/Sci-Info(1층서고)/	청구기호 006.31 2019z2	등록번호 521004748 (10회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M

No.	소장처	청구기호	등록번호	도서상태	반납예정일	예약	서비스
No. 1	소장처 세종학술정보원/과학기술실(5층)/	청구기호 006.31 2019z2	등록번호 151346271 (2회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M ?
No. 2	소장처 세종학술정보원/과학기술실(5층)/	청구기호 006.31 2019z2	등록번호 151349885 (3회 대출)	도서상태 대출가능	반납예정일	예약	서비스 B M ?

컨텐츠정보

책소개

머신 러닝의 결과는 데이터를 얼마나 잘 표현하는 피처를 추출하는가에 달려있다고 할 수 있다. 그러나 머신 러닝을 위한 다양한 알고리즘이나 도구에 대한 안내서는 많이 있는 것에 비해서 데이터의 피처를 어떻게 추출하고 사용할 도구에 맞게 변환하고 처리할 것인지 알려주는 안내서는 거의 없다.

이 책은 수치형 데이터, 범주형(카테고리) 데이터를 다루는 기법뿐만 아니라 텍스트, 이미지, 그리고 고차원 데이터에서 머신 러닝을 위해 좋은 피처를 추출하는 기법과 그 원리를 설명하고 실습을 통해 직관을 얻을 수 있도록 해준다.

★ 이 책에서 다루는 내용 ★

■ 숫자 데이터에 대한 피처 엔지니어링: 필터링, 비닝, 스케일링, 로그 변환, 거듭제곱 변환
■ 텍스트 처리 기법: BoW(Bag-of-Words), n-gram, 구문 탐색
■ 정보가 없는 피처를 제거하기 위한 빈도 기반 필터링 및 피처 스케일링
■ 피처 해싱과 빈 카운팅 등을 포함하는 범주형 변수의 인코딩 기법
■ 주성분 분석(PCA)을 이용한 모델 기반 피처 엔지니어링
■ 피처 생성 기법으로 k-평균을 사용하는 모델 스태킹(model stacking)의 개념
■ 딥러닝을 이용한 이미지 피처 추출

★ 이 책의 대상 독자 ★

이 책은 '모델과 벡터가 무엇인지'와 같은 기본적인 머신 러닝 지식을 전제로 한다. 물론 그와 관련된 간단한 설명이 제공될 것이다. 선형대수, 확률분포, 최적화 등에 대한 경험이 이 책을 이해하는 데 도움은 되지만 꼭 필요하지는 않다.

★ 이 책의 구성 ★

처음 몇 장은 데이터 과학과 머신 러닝을 시작하려는 사람들을 위한 다리를 제공하고자 천천히 시작한다.
1장에서는 데이터, 모델, 피처 등 머신 러닝 파이프라인의 기본 개념을 소개한다.
2장에서는 숫자 데이터를 위한 피처 엔지니어링의 기본인 필터링, 비닝(binning), 스케일링(scaling), 로그 변환(log transform), 거듭제곱 변환(power transform), 상호작용 피처(interaction feature) 등을 살펴본다.
3장에서는 자연어 텍스트를 위한 피처 엔지니어링을 다루며 BoW(Bag-of-Words), n-grams, 구문 탐색 등의 기법을 살펴본다.
4장에서는 피처 스케일링의 한 예로 tf-idf(term frequency-inverse document frequency)를 살펴보고 그 동작 원리를 설명한다.
5장에서는 피처 해싱(feature hashing)과 빈 카운팅(bin counting)을 포함해 범주형 변수에 대한 효율적인 인코딩 기법을 논의하면서 진행에 속도를 높인다.
주성분 분석(PCA, Principal Component Analysis)을 다루는 6장에 이르면 머신 러닝의 세계에 깊이 들어서게 된다.
7장에서는 피처 생성 기법으로서 k-평균을 다루며, 유용한 개념인 모델 스태킹(model stacking)을 설명한다.
8장에서는 텍스트 데이터에 비해 피처 추출이 훨씬 어려운 이미지에 대해 다룬다. 여기서는 이미지에 대한 최신 피처 추출 기법이라고 할 수 있는 SIFT와 HOG, 두 가지 수동 피처 추출 기법을 살펴볼 것이다.
9장에서는 학술 논문에 대한 추천 모델을 생성하는 예제를 통해 몇 가지 서로 다른 기법을 비교 분석한다.

정보제공 :

펼치기

저자소개

앨리스 젱(지은이)

머신 러닝, 알고리즘, 플랫폼 개발 분야의 테크니컬 리더다. 현재 아마존 애드버타이징(Amazon Advertising) 사의 리서치 사이언스 매니저로 근무하고 있다. 그전에는 GraphLab/Dato/Turi에서 툴킷 개발 및 사용자 교육을 담당했고, 마이크로소프트 리서치(Microsoft Research) 사에서 머신 러닝 연구원으로 일했다. UC 버클리(Berkeley)에서 전기공학 및 컴퓨터과학으로 박사(PhD) 학위를, 컴퓨터과학 및 수학으로 학사(BA) 학위를 받았다.

아만다 카사리(지은이)

기술의 다음 지평을 탐구하고 그것이 가져올 영향을 가장 잘 보여줄 수 있는 리더이자 엔지니어다. 현재 Concur Labs의 수석 프로덕트 매니저 겸 데이터 과학자며 SAP Concur의 Concur Labs AI Research 팀의 공동 창립자다. 지난 16년 동안 데이터 과학, 머신 러닝, 복잡계 시스템, 로보틱스 등의 다양한 분야에서 핵심적인 역할을 수행했다. 미국 해군 사관학교(US Naval Academy)에서 제어 시스템 엔지니어링으로 학사(BS) 학위를, 버몬트 대학교(University of Vermont)에서 전기공학으로 석사(MS) 학위를 받았다.

김우현(옮긴이)

대학생 시절, 선배와 함께 창업한 이후 20년 넘게 소프트웨어 개발자로 살고 있으며 인공지능 분야에서 새로운 길을 만들어 가고 있다. 숙명여자대학교 나노/바이오 전산화학 연구센터에서 데이터 과학자로 근무했으며, 현재 프리랜서 AI 개발자로 일하는 중이다. 옮긴 책으로는 에이콘출판사에서 출간한 『R 데이터 구조와 알고리즘』(2017), 『자바 데이터 사이언스 쿡북』(2018), 『피처 엔지니어링, 제대로 시작하기』(2018), 『The Python 3 Standard Library by Example』(2020), 『파이썬 객체지향 프로그래밍 4/e』(2022) 등이 있다.