고려대학교 세종학술정보원

링크메뉴

통합검색

사이트내 검색

부가기능

XML보기XML 
Model-based Feature Compensation for Robust Speech Recognition in Adverse Environments

상세 프로파일

상세정보
상세정보
학위구분 박사
일반장르 E-학위논문
서명사항
     서명 Model-based Feature Compensation for Robust Speech Recognition in Adverse Environments
저자사항
     저자명 김우일
     저자명 Wooil Kim
     저자명 金宇一
     학과/전공 고려대학교 대학원:전자공학과
자료유형 텍스트
발행사항
     발행기관 고려대학교
     발행년 2003
언어사항
     iso639-2b 영어
소장정보
     소장위치 고려대학교 도서관
고대 학위논문분류표 전자공학과(舊전자통신학과)/전자컴퓨터공학과
바로가기

목차/초록

This dissertation proposes an effective feature compensation scheme based on the speech model for achieving robust speech recognition. RATSZ (Multivariate Gaussian Based Cepstral Normalization) is overviewed as the representative GMM (Gaussian Mixture Model) based feature compensation method. For implementation in condition of small sized resource such as embedded system, some alternative of RATZ are proposed. Considerable computation loads of conventional RATZ could be significantly reduced by employing Gaussian selection technique. The proposed algorithm is based on interpolated RATZ and it is modified to be suitable for the frame-synched recognition system. It shows the equivalent performance to the original isolated RATZ just with the far-lower computational load.
Conventional RATZ requires off-line training with a noisy speech database and is not suitable for online adaptation. In the proposed scheme, we can eliminate the need for the noisy speech database in the off-line training by employing the parallel model combination technique for the estimation of correction factors. The application of the model combination technique to the mixture model alone, as opposed to the entire HMM, makes online model combination possible. Exploiting the availability of noise models from off-line sources, we accomplish the online adaptation via MAP(Maximum A Posteriori) estimation. In addition, the real-time channel estimation procedure is induced within the proposed framework. For a more efficient implementation, a selective model combination scheme is proposed, which leads to a reduction of the computational complexity. Representative experimental results indicate that the proposed algorithm is effective in realizing robust speech recognition under the combined adverse conditions of additive background noise and channel distortion.
In the conventional GMM-based method, feature restoration is accomplished by MMSE (Minimum Mean Squared Error) in which the posterior probability decides on the extent of compensation. Since the noisy speech is "incomplete", the compensation by posteriori can result in an obscure feature. In the proposed method, we define the components which are likely to diminish the discriminative property of speech feature and re-compose the mixture model by excluding the competing components. Candidates for distinctive features are estimated from the re-composed model. Final feature selection is based on the measures with likelihood averager over the similar states and standard deviation of likelihood across the dissimilar states. The experimental results show that the suggested algorithm is effective in achieving more distinctive features and thus leads to improved recognition performance under noisy environments.

Abstract = ⅰ
Contents = ⅳ
1. Introduction = 1
 1.1 Background = 1
 1.2 Research Goals and Contributions = 2
 1.3 Organization of Dissertation = 5
2. Previous Works Related to Environmental Robustness in Speech Recognition = 6
 2.1 Spectral Subtraction = 6
 2.2 Cepstral Mean Normalization(CMN) = 7
 2.3 Maximum A Posteriori(MAP) = 9
 2.4 Maximum Likelihood Linear Regression(MLLR) = 11
 2.5 Parallel Model Combination(PMC) = 12
3. Gaussian Mixture Model Based Feature Compensation : RATZ = 14
 3.1 Overview of RATZ Algorithm = 14
 3.2 Interpolated RATZ = 17
4. Efficient GMM-based Methods for Embedded System = 20
 4.1 Employing Gaussian Selection Technique = 20
 4.2 Frame-Synched Interpolated RATZ = 23
 4.3 Bi-mode Interpolated RATZ = 24
5. Parallel Combined Mixture Model Based Feature Compensation = 26
 5.1 Motivation = 26
 5.2 Employing Parallel Model Combination Technique = 27
 5.3 Parallel Combined Mixture Model Based Feature Compensation = 29
 5.4 Noise Model Adaptation = 32
 5.5 Real-time Channel Estimation and Normalization = 33
 5.6 Computational Complexity Reduction by Selective Model Combination = 36
6. Modified Feature Compensation for Distinctive Property = 39
 6.1 Motivation = 39
 6.2 Estimation of distinctive feature candidates = 41
 6.3 Decision measure for final selecting = 45
  6.3.1 Average of likelihood over similar states = 45
  6.3.2 Deviation of likelihood across dissimilar states = 48
7. Experiments and Results = 52
 7.1 Experiments’ Conditions : Performance Evaluation in Aurora 2.0 = 52
  7.1.1 Noisy speech data = 52
  7.1.2 Definition of training and testing sets = 54
  7.1.3 HTK reference recognizer = 55
  7.1.4 Aurora WI007 front-end = 57
  7.1.5 Experimental conditions in this work = 57
 7.2 Baseline Performance Evaluation = 60
 7.3 Performance Evaluation of Efficient Methods for Embedded System = 62
 7.4 Performance Evaluation of the PCMM-based Feature Compensation = 67
 7.5 Selective Model Combination = 74
 7.6 Distinctive Property = 77
8. Conclusions and Future Works = 80
 8.1 Summary of Results = 80
 8.2 Future Works = 81
Bibliography = 82

태그

  • 태그

나의 태그

나의 태그 (0)

모든 이용자 태그

모든 이용자 태그 (0) 태그 목록형 보기 태그 구름형 보기
 

서평

  • 서평