목차
제1부 자연언어처리의 기초
제1장 자연언어처리의 개념 = 17
1.1 자연언어의 다양성 = 17
1.2 언어학 이론의 자연언어처리 = 19
1.3 자연언어처리 단계 = 24
1.4 형식 문법과 자연언어 분석 = 26
1.5 변형과 통합 = 28
제2장 자연언어처리의 역사 = 31
2.1 초기의 연구 = 31
2.2 1960년대의 자연언어처리 = 32
2.3 1970년대의 자연언어처리 = 33
2.4 1980년대 이후의 자연언어처리 = 35
2.5 기계 번역의 역사 = 36
제3장 자연언어와 프로그래밍 언어 = 41
3.1 자연언어와 프로그래밍 언어의 성격 = 41
3.2 프로그래밍 언어 처리 = 44
3.3 언어 처리 기술 = 47
제4장 자연언어처리, 인공지능, 기계학습 = 51
4.1 자연언어처리와 인공지능 = 51
4.2 자연언어처리와 기계학습 = 52
4.2.1 기호적 학습 방법(Symbolic Learning Methods) = 53
4.2.2 비기호적 학습 방법(Subsymbolic Learning Methods) = 55
4.2.3 확률적 학습 방법(Stochastic Learning Methods) = 56
4.2.4 기타 기계학습 방법 = 58
4.3 결론 = 59
제2부 자연언어 분석
제5장 형태소 분석 = 71
5.1 형태소 분석이란 무엇인가 = 72
5.1.1 형태소 분석의 관점 = 73
5.1.2 일반적인 형태소 분석 과정 = 73
5.2 형태소 분석 방법 = 76
5.2.1 언어 독립적인 방법론 = 77
5.2.2 한국어 형태소 분석 방법론 = 80
5.3 영어 형태소 분석 = 84
5.3.1 영어 형태소 분석 개요 = 85
5.3.2 영어 형태소 분석 과정 = 86
5.4 한국어 형태소 분석 = 87
5.4.1 형태소 분리 = 90
5.4.2 불규칙의 원형 복원 = 91
5.4.3 복합어와 미등록어 추정 = 92
5.5 형태소 분석기의 성능 = 92
제6장 태깅 = 97
6.1 개요 97
6.2 규칙 기반 접근법(Rule-based Approach) = 99
6.3 통계적 접근법(Statistical Approach) = 101
6.3.1 HMM 접근법 = 101
6.3.2 MEM 접근법 = 104
6.4 복합적 접근법(Hybrid Approach) = 106
6.5 한국어 태킹 = 106
6.5.1 고려 사항 = 107
6.5.2 Tail-head 접근법 = 108
제7장 파싱 = 113
7.1 자연언어 문법과 파싱 = 113
7.1.1 문장의 트리 구조 = 113
7.1.2 문맥 자유 구구조 문법 = 114
7.1.3 하향식 파싱과 상향식 파싱 = 116
7.1.4 자연언어 구조의 모호성 = 118
7.2 부가 전이망(ATN) 문법 = 120
7.2.1 전이망과 문법 = 120
7.2.2 순환 전이망 문법 = 121
7.2.3 순환 전이망 문법을 이용한 하향식 파싱 = 123
7.2.4 부가 전이망 문법 = 125
7.3 차트에 의한 파싱 = 127
7.3.1 그래프로 표현되는 차트 = 128
7.3.2 삼각 테이블로 표현되는 차트 = 129
7.3.3 차트 파싱의 기능 확장 = 129
7.4 발전된 언어 이론과 파싱 = 130
제8장 언어 자원 = 133
8.1 사전 = 133
8.1.1 전자 사전의 구축 = 133
8.1.2 사전의 종류 = 134
8.1.3 사전의 역할 = 135
8.1.4 사전의 문제 해결 능력 = 135
8.1.5 사전의 구현 = 136
8.1.6 사전의 GUI(Graphic User Interface) = 141
8.1.7 동의어 사전과 의미 분석 = 142
8.1.8 사전과 말뭉치와의 관계 = 142
8.1.9 사전과 WordNet과의 관계 = 142
8.1.10 사전과 번역 = 142
8.1.11 사전과 지식베이스 = 143
8.2 시소러스(Thesaurus) = 144
8.2.1 시소러스 정의 및 종류 = 144
8.2.2 시소러스 개발 표준 = 152
8.2.3 한국어정보처리용 명사의미체계 = 155
8.2.4 의미 속성에 기반한 명사의미체계 = 163
8.3 코퍼스(corpus) = 169
8.3.1 코퍼스의 개념 = 169
8.3.2 연구용 주요 코퍼스 = 170
8.3.3 Treebank의 개념 = 171
8.3.4 Treebank의 형태 = 172
제3부 문법 이론
제9장 일반 구구조 문법 = 181
9.1 통사 자질 이론 = 182
9.2 문법 규칙 = 186
9.3 상위 규칙 = 188
9.4 자질 예시의 보편 원리 = 190
9.4.1 비중심어 자질 원리(Foot Feature Principle) = 190
9.4.2 통제 일치의 원리(Control Agreement Principle) = 192
9.4.3 중심어 자질 규약(Head Feature Convention) = 193
9.5 영어의 구조 = 193
9.5.1 동사구 = 194
9.5.2 형용사구 = 198
9.5.3 명사구 = 199
9.5.4 전치사구 = 201
9.6 무한 의존 구문(Unbounded Dependencies) = 202
9.7 등위 접속(Coordination) = 208
제10장 중심어 주도 구구조 문법 = 213
10.1 HPSG의 자질 구조 = 213
10.2 통사 자질 = 214
10.2.1 중심어 자질과 중심어 원리 = 214
10.2.2 하위범주화 자질과 하위범주화 원리 = 216
10.2.3 어휘성 자질 = 218
10.2.4 결속 자질과 결속 승계 원리 = 219
10.3 의미 자질 = 221
10.3.1 상황형 자질 구조 = 221
10.3.2 의미 자질과 의미 원리 = 223
10.3.3 의미부와 하위범주화 자질 = 224
10.4 문법 규칙과 어순 = 225
10.4.1 문법 규칙 = 225
10.4.2 어순 제약 = 228
제11장 어휘 기능 문법 = 231
11.1 어휘기능 문법의 역사 = 231
11.2 어휘 기능 문법의 특징 = 231
11.3 성분 구조의 분석 = 232
11.4 기능 구조의 분석 = 234
11.5 비문의 판정 = 236
11.6 문법 제약 장치의 도입 = 238
11.7 실사 이론 = 240
11.8 중간 언어로서의 역할 = 241
11.9 한국어와 어휘 기능 문법 = 241
11.10 어휘 기능 문법의 전망 = 243
제12장 범주 문법과 의존 문법 = 245
12.1 범주 문법(Categorial Grammar) = 245
12.2 한국어 범주 문법 = 247
12.2.1 한국어 특징 = 247
12.2.2 한국어를 위해 확장된 규칙 = 249
12.2.3 한국어 모델링 = 250
12.2.4 한국어에서 해결해야 할 어려운 문제들 = 254
12.3 의존 문법(Dependency Grammar) = 257
12.3.1 의존 문법의 역사 = 258
12.3.2 의존 문법과 구구조 문법과의 관계 = 259
12.3.3 한국어 의존 문법 = 259
제13장 확률 문맥 자유 문법 = 263
13.1 확률 문맥 자유 문법의 개요 = 263
13.2 확률 문맥 자유 문법의 필요성 = 267
13.2.1 구조적 모호성 해소(Syntactic Disambiguation) = 267
13.2.2 문법 생성(Grammar Induction) = 268
13.2.3 언어 모델링 (Language Modeling) = 269
13.3 확률 문맥 자유 문법을 위한 알고리즘 = 270
13.3.1 문장의 확률을 계산하는 알고리즘 = 270
13.3.2 가장 좋은 결과를 찾는 알고리즘 = 276
13.3.3 학습 알고리즘 = 276
13.4 확률 문맥 자유 문법의 문제점들 = 277
13.5 결론 = 280
제4부 기계 번역
제14장 기계 번역 방법론 = 285
14.1 직접 번역 방식 = 285
14.2 변환 방식 = 287
14.3 피봇 방식 = 289
14.4 통계 기반 번역 방식 = 291
14.5 예제 기반 번역 방식 = 292
14.6 신경망 기반 번역 방식 = 292
제15장 어의 중의성 해소 = 295
15.1 선택 제약에 기반한 중의성 해소 = 296
15.2 통계적 기법에 기반한 어의 중의성 해소 = 298
15.2.1 감독 중의성 해소(Supervised Disambiguation) = 298
15.2.2 비감독 중의성 해소(Unsupervised Disambiguation) = 300
15.2.3 사전-기반 중의성 해소(Dictionary-Based Disambiguation) = 301
제16장 자연언어 생성 = 307
16.1 자연언어 생성의 역사 = 307
16.2 자연언어 생성의 적용 = 309
16.3 자연언어 생성의 개요 = 311
16.3.1 자연언어 이해와 생성의 비교 = 311
16.3.2 자연언어 생성 모델 = 312
16.4 자연언어 생성 방식 = 314
16.4.1 문틀 기반 생성 = 314
16.4.2 문장 생성 = 315
16.4.3 텍스트 생성 = 317
16.5 자연언어 생성 문법 = 319
16.5.1 시스템 문법 = 319
16.5.2 FUG = 320
16.5.3 ATN(Augmented Transition Network) = 323
16.6 기계 번역에의 응용 = 325
16.7 자연언어 생성 시스템의 사례 = 327
제17장 기계 번역 시스템 = 331
17.1 영한 기계 번역 시스템 = 331
17.1.1 개요 = 331
17.1.2 어휘 분석(Lexical Analysis) = 332
17.1.3 구문 분석(Parsing, Syntactic Analysis) = 334
17.1.4 변환(Transfer) = 337
17.1.5 한국어 생성 = 339
17.2 한영 기계 번역 = 341
17.2.1 개요 = 341
17.2.2 한영 기계 번역 시스템의 구조 = 342
17.3 일한 기계 번역 시스템 = 346
17.3.1 개요 = 346
17.3.2 한국어와 일본어의 유사성 = 346
17.3.3 일한 기계 번역 방식 = 347
17.3.4 분석 단계 = 347
17.3.5 변환 단계 = 348
17.3.6 생성 단계 = 350
17.4 한일 기계 번역 시스템 = 351
17.4.1 개요 = 351
17.4.2 한일 기계 번역 시스템의 구조 = 352
17.4.3 한국어 형태소 분석 = 354
17.4.4 변환 = 354
17.4.5 일본어 생성 = 357
제5부 정보 검색
제18장 정보 검색 = 363
18.1 개요 = 363
18.2 정보 검색 시스템의 유형 = 364
18.3 색인 기법 = 366
18.3.1 색인의 개념 = 366
18.3.2 색인 과정 = 367
18.3.3 자동 색인 = 368
18.4 검색 기법 = 371
18.4.1 불린 모델 = 372
18.4.2 벡터 모델 = 373
18.4.3 확률 모델 = 373
18.4.4 연관성 피드백 = 374
제19장 문서 분류 = 377
19.1 문서 분류의 정의 = 377
19.1.1 NewsWeeder = 378
19.1.2 WebWatcher = 378
19.2 문서의 표현 = 379
19.3 문서 분류의 평가 방법 = 381
19.4 특성 선택 = 382
19.4.1 문서 빈도 제한(DF) = 383
19.4.2 정보 이득 = 383
19.4.3 상호 정보 = 383
19.4.4 $$x^2$$ 점수 = 384
19.5 분류기 학습 알고리즘 = 384
제20장 문서 클러스터링 = 387
20.1 문서 클러스터링의 개요 = 387
20.2 문서 클러스터링 알고리즘 = 390
20.2.1 계층적 클러스터링 = 390
20.2.2 할당식 클러스터링 = 391
20.2.3 SOM(Self-Organizing Map) 클러스터링 = 391
20.3 클러스터링 결과 판단 = 393
제21장 문서 요약 = 397
21.1 개요 = 397
21.2 문서 요약의 유형 = 397
21.2.1 생성 요약(Abstraction)과 추출 요약(Extraction) = 398
21.2.2 포괄적 요약(Generic Summary)과 질의 기반 요약(Query-based Summary) = 398
21.2.3 지시적 요약(Indicative Summary)과 정보적 요약(Informative Summary) = 398
21.2.4 단일 문서 요약과 다중 문서 요약 = 398
21.2.5 중립적 요약(Neutral Summary)과 편향적 요약(Biased Summary) = 399
21.3 기본적인 접근법 및 방법론 = 399
21.3.1 문서 요약에 대한 접근법들 = 399
21.3.2 문서 요약 방법론들 = 400
21.4 문서요약 절차 = 401
21.4.1 주제 추출(Topic Extraction) = 401
21.4.2 해석(Interpretation) = 403
21.4.3 요약문의 생성(Generation) = 405
21.5 문서 요약 시스템의 평가 = 405