講演抄録/キーワード |
講演名 |
2010-06-11 11:30
線形予測に基づいた骨導音声回復法の総合評価 ○Phung Trung-Nghia・鵜木祐史・赤木正人(北陸先端大) EA2010-31 |
抄録 |
(和) |
高騒音環境下での音声コミュニケーションを実現するために,雑音の影響を最も受け易い気導音声の代わりに骨導音声を利用することは,非常に有効な手段の一つである.しかし,骨導音声は,雑音に対して頑健であるものの,その音質や明瞭度に関しては,骨伝導の影響により著しく低下してしまうという問題があるため,骨導音声の音質や明瞭度を回復するための手法が必要とされている.著者らは,この課題に対する有効な方法として,SRNベースの予測法を組み込んだ線形予測分析に基づいたブラインド回復法を提案した.しかし,高騒音環境での性能評価,SRNベースの学習/予測法の改良,LP残差比の動的操作,といった検討課題が残っていた. 本稿では,SRNベースの学習/予測法をGMMベースのものに改良し,LP残差比をセグメント単位に推定する方法を提案する.高騒音環境において,従来法と改良法の性能を評価するために,ここでは,音質ならびに明瞭度の回復について,客観評価(PESQ, LSD, CD)ならびに主観評価実験(単語了解度試験)を行った.総合評価の結果,両方法とも,高騒音環境で骨導音声の音質・明瞭度を有効に回復できることがわかった.また,GMMベースのものがSRNベースのものよりも有効に機能することもわかった. |
(英) |
The restoration of bone-conducted (BC) speech is a very important issue for robust speech communication in extremely noisy environments. In our previous studies, we proposed a blind restoration method based on liner-prediction (LP) scheme with a prediction method based on the Simple Recurrent Neural network (SRN). However, this has not yet been shown their ability for blindly restoring BC speech in high noisy environments. In addition, since SRN-based prediction is not suitable for training with the huge corpus, the over-training problem of SRN makes difficult to train various kinds of BC speech in one session. Thus, in this paper, we use a prediction method based on the Gaussian Mixture Model (GMM) instead of SRN. We also modify a method for estimating the LP residual ratio. We then investigate whether how the method works to restore BC speech in high noisy environments. Objective and subjective evaluations were carried out to evaluate the improvements in sound quality and intelligibility of the restored speech. The results revealed that our proposed LP-GMM method outperforms the original LP-SRN method and both of the two methods can adequately improve the voice quality and intelligibility of BC speech, in clean and high noisy environments. |
キーワード |
(和) |
線形予測 / 骨導音声 / ブラインド回復 / GMM / 音声明瞭度 / / / |
(英) |
linear prediction / bone-conducted speech / blind restoration / GMM / speech intelligibility / / / |
文献情報 |
信学技報, vol. 110, no. 71, EA2010-31, pp. 53-58, 2010年6月. |
資料番号 |
EA2010-31 |
発行日 |
2010-06-03 (EA) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
EA2010-31 |
|