고려대학교 세종학술정보원

링크메뉴

통합검색

사이트내 검색

부가기능

XML보기XML 
Model-based Feature Compensation for Robust Speech Recognition in Adverse Environments

상세 프로파일

상세정보
상세정보
학위구분 박사
일반장르 E-학위논문
형태사항
     marcform Electronic
서명사항
     서명 Model-based Feature Compensation for Robust Speech Recognition in Adverse Environments
저자사항(개인명)
     저자명 김우일
     학과/전공 고려대학교 대학원전자공학과 정보처리전공
자료유형 텍스트
발행사항
     발행지명(텍스트) 서울
     발행기관 고려대학교 대학원
     발행년 2003
     발행년 2003
     발행연속성 monographic
언어사항
     iso639-2b(코드) 한국어
주기 참고문헌 : p. 82-88
고대 학위논문분류표 전자공학과(舊전자통신학과)/전자컴퓨터공학과
바로가기

목차/초록

This dissertation proposes an effective feature compensation scheme based
on the speech model for achieving robust speech recognition. RATZ (Multivariate
Gaussian Based Cepstral Normalization) Is overviewed as the representative GMM
(Gaussian Mixture Model) based feature compensation method. For
implementation in condition of small sized resource such as embedded system, some
alternative versions of RATZ are proposed. Considerable computation loads of
conventional RATZ could be significantly reduced by employing Gaussian selection
technique, The proposed algorithm is based on interpolated RATZ and it is
modified to be suitable for the frame-synched recognition system. It shows the
equivalent performance to the original isolated RATZ just with the far-lower
computational load.
Conventional RATZ requires off-line training with a noisy speech database
and is not suitable for online adaptation. In the proposed scheme, we can eliminate
the need for the noisy speech database in the off-line training by employing the
parallel model combination technique for the estimation of correction factors. The
application of the model combination technique to the mixture model alone, as
opposed to the entire HMM, makes online model combination possible. Exploiting
the availability of noise models from off-line sources, we accomplish the online
adaptation via MAP(Maximum A Posteriori) estimation. In addition, the real-time
channel estimation procedure is induced within the proposed framework. For a
more efficient implementation, a selective model combination scheme is proposed,
which leads to a reduction of the computational complexity. Representative
experimental results indicate that the proposed algorithm is effective in realizing
robust speech recognition under the combined adverse conditions of additive
background noise and channel distoroon.
In the conventional GMM-based method, feature restoration Is
accomplished by MMSE (Minimum Mean Squared Error) in which the posterior
probability decides on the extent of compensation. Since the noisy speech is
"incomplete", the compensation by posteriori can result in an obscure feature. In
the Proposed method, we define the components which are likely to diminish the
discriminative property of speech feature and re-compose the mixture model by
excluding the competing components. Candidates for distinctive features are
estimated from the re-composed model. Final feature selection is based on the
measures with likelihood average over the similar states and standard deviation of
likelihood across the dissimilar states. The experimental results show that the
suggested algorithm is effective in achieving more distinccve features and thus leads
to improved recognition performance under noisy environments

Abstract = 5
Contents = 8
List of Figures = 11
List of Tables = 12
1. Introduction = 14
 1.1 Background = 14
 1.2 Research Goals and Contributions = 15
 1.3 Organization of Dissertation = 18
2. Previous Works Related to Environmental Robustness in Speech Recognition = 19
 2.1 Spectral Subtraction = 19
 2.2 Cepstral Mean Normalization(CMN) = 20
 2.3 Maximum A Posteriori(MAP) = 22
 2.4 Maximum Likelihood Linear Regression(MLLR) = 24
 2.5 Parallel Model Combination(PMC) = 25
3. Gaussian Mixture Model Based Feature Compensation:RATZ = 27
 3.1 Overview of RATZ Zlgorithm = 27
 3.2 Interpolated RATZ = 30
4. Efficient GMM-based Methods for Embedded System = 33
 4.1 Employing Gaussian Selection Technique = 33
 4.2 Frame-Synched Interpolated RATZ = 36
 4.3 Bi-mode Interpolated RATZ = 37
5. Parallel Combined Mixture Model Based Feature Compensation = 39
 5.1 Motivation = 39
 5.2 Employing Parallel Model Combination Technique = 40
 5.3 Parallel Combined Mixture Model Based Feature Compensation = 42
 5.4 Noise Model Adaptation = 45
 5.5 Real-time Channel Estimation and Normalzation = 46
 5.6 Computational Complexity Reduction by Selective Model Combination = 49
6. Modified Feature Compensation for Distinctive Property = 52
 6.1 Motivation = 52
 6.2 Estimation of distinctive feature candidates = 54
 6.3 Decision measure for final selecting = 58
  6.3.1 Average of likelihood over similar states = 58
  6.3.2 Deviation of likelihood across dissimilar states = 61
7. Experiments and Results = 65
 7.1 Experiments'Conditions: Performance Evaluation in Aurora 2.0 = 65
  7.1.1 Noisy speech data = 65
  7.1.2 Definition of training and testing sets = 67
  7.1.3 HTK reference recognizer = 68
  7.1.4 Aurora WI007 front-end = 70
  7.1.5 Experimental conditions in this work = 70
 7.2 Baseline Performance Evaluation = 73
 7.3 Performance Evaluation of Efficient Methods for Embedded System = 75
 7.4 Performance Evaluation of the PCMM-based Feature Compensation = 80
 7.5 Selective Model Combination = 87
 7.6 Distinctive Proberty = 90
8. Conclusions and Future Works = 93
 8.1 Summary of Results = 93
 8.2 Future Works = 94
Bibllography = 95
감사의 글 = 102
Curriculum Vitae = 105

태그

  • 태그

나의 태그

나의 태그 (0)

모든 이용자 태그

모든 이용자 태그 (0) 태그 목록형 보기 태그 구름형 보기
 

서평

  • 서평