講演抄録/キーワード |
講演名 |
2008-12-09 10:00
スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識 ○西亀健太・和泉洋介(東大)・渡部晋治(NTT)・西本卓也・小野順貴・嵯峨山茂樹(東大) NLC2008-24 SP2008-79 |
抄録 |
(和) |
本稿ではスパース性に基づくブラインド音源分離をフロントエンドに用いた雑音残響下における2チャンネル入力音声認識を提案する.2 チャンネルブラインド音源分離により観測音からターゲット音声が分離される.本稿で用いた音源分離手法ではEM アルゴリズムによって設計された時間周波数マスキングを行うことにより残響などの拡散性雑音下でも精度よく音源分離を行うものである.音源分離後に残った歪みや,新たに生じた歪みに関してはCepstral Mean Nomalization による抑圧を行う.提案手法に対し,複数妨害音および残響の存在下における連続数字音声認識タスクにおいて提案手法の有効性を確認し,特に残響下で比較手法より高い認識性能を実現した. |
(英) |
This paper discusses a two-channel input speech recognition using a sparsness-based blind source separation. The target speech is extracted from observed signals under diffusive noises (e.g. reverberation) by the source separation technique where a time-frequency mask is dynamically designed for speech separation using the EM algorithm. Cepstral Mean Normalization is exploited to reduce a remaining distortions or a newly introduced distortions in separated speech features. In a connected digit recognition task with multiple noise sources, the proposed method drastically improved the word accuracy in anechoic and reverberant environments. The proposed method achieved higher performance especially in a reverberant environment than conventional methods. |
キーワード |
(和) |
スパース性 / 2チャンネルブラインド音源分離 / 残響 / 音声認識 / / / / |
(英) |
sparsness / 2-channel blind source separation / reverberation / speech recognition / / / / |
文献情報 |
信学技報, vol. 108, no. 338, SP2008-79, pp. 1-6, 2008年12月. |
資料番号 |
SP2008-79 |
発行日 |
2008-12-02 (NLC, SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2008-24 SP2008-79 |