HOME > 상세정보

상세정보

데이터가 뛰어노는 AI 놀이터, 캐글 : 상위 랭킹 진입을 위한 필살기 (6회 대출)

자료유형
단행본
개인저자
門脇大輔, 저 阪田隆司, 저 保坂桂佑, 저 平松雄司, 저 대니얼WJ, 역
서명 / 저자사항
데이터가 뛰어노는 AI 놀이터, 캐글 : 상위 랭킹 진입을 위한 필살기 / 가도와키 다이스케 [외]지음 ; 대니얼WJ 옮김
발행사항
서울 :   한빛미디어,   2021  
형태사항
427 p. : 삽화 ; 24 cm
원표제
Kaggleで勝つデータ分析の技術
ISBN
9791162244234
일반주기
공저자: 사카타 류지, 호사카 게이스케, 히라마쓰 유지  
부록: A. 경진 대회 참고 자료, C. 이 책에서 참조한 경진 대회 목록  
서지주기
참고문헌(p. 409-416)과 색인수록
000 00000cam c2200205 c 4500
001 000046144514
005 20230321143422
007 ta
008 230320s2021 ulka b 001c kor
020 ▼a 9791162244234 ▼g 93000
035 ▼a (KERIS)BIB000015849604
040 ▼a 248019 ▼c 248019 ▼d 211009
041 1 ▼a kor ▼h jpn
082 0 4 ▼a 006.31 ▼2 23
085 ▼a 006.31 ▼2 DDCK
090 ▼a 006.31 ▼b 2021z64
245 0 0 ▼a 데이터가 뛰어노는 AI 놀이터, 캐글 : ▼b 상위 랭킹 진입을 위한 필살기 / ▼d 가도와키 다이스케 [외]지음 ; ▼e 대니얼WJ 옮김
246 1 9 ▼a Kaggleで勝つデータ分析の技術
246 3 ▼a Kaggle de katsu dēta bunseki no gijutsu
260 ▼a 서울 : ▼b 한빛미디어, ▼c 2021
300 ▼a 427 p. : ▼b 삽화 ; ▼c 24 cm
500 ▼a 공저자: 사카타 류지, 호사카 게이스케, 히라마쓰 유지
500 ▼a 부록: A. 경진 대회 참고 자료, C. 이 책에서 참조한 경진 대회 목록
504 ▼a 참고문헌(p. 409-416)과 색인수록
700 1 ▼a 門脇大輔, ▼e
700 1 ▼a 阪田隆司, ▼e
700 1 ▼a 保坂桂佑, ▼e
700 1 ▼a 平松雄司, ▼e
700 0 ▼a 대니얼WJ, ▼e
900 1 0 ▼a 가도와키 다이스케, ▼e
900 1 0 ▼a Kadowaki, Daisuke, ▼e
900 1 0 ▼a 사카타 류지, ▼e
900 1 0 ▼a Sakata, Ryūji, ▼e
900 1 0 ▼a 호사카 게이스케, ▼e
900 1 0 ▼a Hosaka, Keisuke, ▼e
900 1 0 ▼a 히라마쓰 유지, ▼e
900 1 0 ▼a Hiramatsu, Yūji, ▼e
945 ▼a ITMT

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.31 2021z64 등록번호 111878299 (6회 대출) 도서상태 대출가능 반납예정일 예약 서비스 B M

컨텐츠정보

책소개

데이터 분석 무한 경쟁 '캐글'에서 살아남기 위한 비결. 세계 최대 규모 데이터 분석 경진 대회 플랫폼인 캐글에서는 일반적이지 않은 데이터 처리 기법이 많이 활용된다. 이를 이해하고 체득하여 활용하는 것은 대회뿐만 아니라 데이터 분석 실무에서도 모델 정확도를 높이는 데 매우 유용하다.

특징(feature)을 만드는 방법, 앙상블, 평가지표, 사이킷런, xgboost 등 기존에는 잘 다루지 않았던 기법과 사례를 이 책 한 권에 정리했다. 경진 대회에 참여할 계획이 있거나, 캐글을 경험해봤지만 더 높은 상위 랭킹에 도전하고 싶다면 지금 바로 읽어보기를 권한다.

캐글 상위 랭킹 진입에 필요한 필살기를 한 권에 정리했다!

상당수의 데이터 과학자가 자신의 실력을 검증하고자 '캐글'에 도전합니다. 대회에서는 실제 데이터를 이용하기 때문에 일반적이지 않은 데이터 처리 방법과 기법이 많이 활용됩니다. 그러한 내용을 이해하고 스스로 활용할 수 있는 능력을 갖추는 것은 경진 대회는 물론이고 실무에서도 모델을 구현하는 데 많은 도움이 됩니다.

최대한 많은 기술과 사례를 한 권에 담기 위해 노력했습니다. 정형 데이터를 다루는 대회를 대상으로 하여 문제 설정이 명확하게 주어진 가운데 성능이 높은 모델을 만들려면 어떻게 해야 하고 무엇을 주의해야 할지에 초점을 맞추었습니다. 특히 특징을 생성하는 방법, 검증, 파라미터 튜닝 등 다른 도서에서는 잘 다루지 않는 노하우나 포인트도 설명합니다. 처음부터 전부 이해하려 하기보다는 우선 빠르게 읽으면서 관심 있는 부분만 집중적으로 읽는 것을 권합니다. 또는 대회 도중에 힌트가 필요할 때 살짝 보거나 헷갈리는 부분을 사전적으로 참조하여 읽어도 좋습니다.

캐글에 도전하고 싶지만 어떻게 해야 할지 막막하거나, 매번 같은 방법만 사용하여 다른 방법도 알고 싶거나, 더 높은 순위권에 진입하는 것이 목표라면 꼭 읽어야 하는 책입니다. 경진 대회에서 쓰이는 기술은 실무에도 유용하므로 대회에 흥미가 없어도 읽으면 도움이 될 것입니다.

주요 내용

● 정밀도가 높은 모델 구축하기
● 데이터에서 특징 추출하기
● 변수를 변환해 특징 생성하기
● 평가지표를 이용해 예측 결과 최적화하기
● 하이퍼파라미터 튜닝
● 여러 모델을 조합해 예측하는 앙상블 기법과 스태킹(stacking)
● 시계열 데이터 종류와 취급 방법


정보제공 : Aladin

저자소개

가도와키 다이스케(지은이)

Kaggle Competitions Master. 교토대학 졸업 후 생명보험회사에서 보험계리사로 10년간 상품 개발과 리스크 관리 업무에 종사했습니다. 캐글과의 만남을 계기로 경력을 내던지고 캐글 및 데이터 관련 프로그램에 참여 중입니다. 캐글 Walmart Recruiting II: Sales in Stormy Weather 대회에서 우승했으며 캐글 Coupon Purchase Prediction 대회에서 3위 입상했습니다.

사카타 류지(지은이)

Kaggle Competitions Grand Master. 교토대학 대학원 수료 후 전기 제조업체에 입사하여 데이터 과학자 및 연구원으로 종사했습니다. 2014년부터 데이터 과학과 머신러닝에 흥미가 생겨 캐글을 시작했습니다.

호사카 게이스케(지은이)

Kaggle Competitions Expert. 도쿄대학 대학원에서 천체 시뮬레이션 연구로 석사 학위를 받았습니다. 데이터 분석 컨설팅 회사에서 10년간 기업의 데이터 분석 지원 업무를 담당했습니다. 이후 대기업 웹서비스 부문에 입사하여 데이터 활용 업무에 종사했습니다. 현재 데이터 과학자 및 머신러닝 엔지니어의 육성과 관리를 맡고 있으며 개인적으로는 육아에 전념 중입니다.

히라마쓰 유지(지은이)

Kaggle Competitions Master. 도쿄대학 대학원에서 물리학을 전공하고 전기 분야 대기업에 입사했습니다. 이후 금융업계로 이직하여 금융시스템 회사의 파생상품 업무와 대형 손해보험 그룹의 위험회계 업무에 종사했습니다. 현재는 AXA 생명보험의 시니어 데이터 과학자로서 내부 데이터 분석 업무를 담당하고 도쿄대학에 연구원으로 파견되어 의료 데이터를 분석하고 연구합니다. 캐글은 2016년부터 본격적으로 시작했습니다. 곰 인형을 매우 좋아합니다.

대니얼WJ(옮긴이)

졸업 후 과감히 해외 취업에 도전했고 일본과 미국의 IT 업계에서 8년간 근무했습니다. 통신사 엔지니어로 일하다가 회사를 그만두고 또다시 새로운 도전으로 교육에 몸담은 지 벌써 10년이 흘렀습니다. 작은 컴퓨터 학원에서 초중고 학생들에게 코딩을 가르치며 내디딘 한 걸음을 시작으로 빅데이터 강사를 거쳐 대학원, 대기업, 정부 기관을 대상으로 강의도 하며 지금까지 왔습니다. 현재는 1인 기업의 운영자로 그리고 챗GPT, AI 분야 프리랜서 번역가, 작가 및 강사로 활동 중입니다. 삶에서 누군가에게 꿈과 소망을 전달하는 크리스천으로서 작가, 번역가, 교육가로 거듭나고자 합니다. 블로그: https://markspeople.tistory.com 유튜브: https://www.youtube.com/@stream_tree_class

정보제공 : Aladin

목차

CHAPTER 1 경진 대회
1.1 경진 대회란?
1.2 경진 대회 플랫폼
1.3 경진 대회 참가부터 종료까지
1.4 경진 대회의 참가 의미
1.5 상위권 진입의 중요 팁

CHAPTER 2 경진 대회의 평가지표
2.1 경진 대회의 종류
2.2 경진 대회의 데이터셋
2.3 평가지표
2.4 평가지표와 목적함수
2.5 평가지표의 최적화
2.6 평가지표 최적화 사례
2.7 데이터 정보 누출

CHAPTER 3 특징 생성
3.1 이 장의 구성
3.2 모델과 특징
3.3 결측값 처리
3.4 수치형 변수 변환
3.5 범주형 변수 변환
3.6 날짜 및 시간변수 변환
3.7 변수의 조합
3.8 다른 정형 데이터와의 결합
3.9 집약하여 통계량 구하기
3.10 시계열 데이터 처리
3.11 차원축소와 비지도 학습의 특징
3.12 기타 기법
3.13 경진 대회의 특징 사례

CHAPTER 4 모델 구축
4.1 모델의 기본 이해
4.2 경진 대회에서 사용하는 모델
4.3 GBDT
4.4 신경망
4.5 선형 모델
4.6 기타 모델
4.7 모델의 기타 팁과 테크닉

CHAPTER 5 모델 평가
5.1 모델 평가란?
5.2 검증 방법
5.3 시계열 데이터의 검증 방법
5.4 검증 포인트와 기술

CHAPTER 6 모델 튜닝
6.1 매개변수 튜닝
6.2 특징 선택과 중요도
6.3 편중된 클래스 분포의 대응

CHAPTER 7 앙상블 기법
7.1 앙상블이란?
7.2 간단한 앙상블 기법
7.3 스태킹
7.4 앙상블 대상 모델의 선택 기준
7.5 경진 대회의 앙상블 사례

관련분야 신착자료

Dyer-Witheford, Nick (2026)
양성봉 (2025)