講演抄録/キーワード |
講演名 |
2017-08-30 11:00
[ポスター講演]雑音環境下音声認識のための多チャネル非負値行列因子分解に基づく教師なしビームフォーマ ○島田一希・坂東宜昭・三村正人・糸山克寿・吉井和佳・河原達也(京大) SP2017-23 |
抄録 |
(和) |
本稿では,雑音環境下音声認識のための教師なし多チャネル音声強調について述べる.音声認識における多チャネル音声強調ではビームフォーマが一般的であり,その構成要素であるステアリングベクトルや空間相関行列の推定はDNNを用いて作成したマスクに基づく手法が主流になっている.このような教師あり手法は訓練データに過学習し未知環境において性能が低下するおそれがある.そこで本研究では,多チャネル非負値行列因子分解(MNMF)に基づくブラインド音源分離を用いて空間相関行列を推定する教師なしビームフォーマを提案する.MVDRビームフォーマ及び目的音声のスケールを考慮するMAP推定に基づくビームフォーマにおいて,時変及び時不変フィルタに加えて,発話内で変化しないステアリングベクトルと時間フレームごとに変わる雑音の空間相関行列によるフィルタを構築した.実録音データに対する音声認識実験を行った結果,提案法が未知環境においてDNNマスクに基づくビームフォーマより頑健に動作することを示した.また時不変な目的音声のステアリングベクトル及び時変な雑音の空間相関行列をMNMFにより推定したMAPビームフォーマが最も高い性能を示した. |
(英) |
(Available after conference date) |
キーワード |
(和) |
雑音環境下音声認識 / 音声強調 / ビームフォーミング / 多チャネル非負値行列因子分解 / / / / |
(英) |
noisy speech recognition / speech enhancement / beamforming / multichannel nonnegative matrix factrization / / / / |
文献情報 |
信学技報, vol. 117, no. 189, SP2017-23, pp. 19-24, 2017年8月. |
資料番号 |
SP2017-23 |
発行日 |
2017-08-23 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2017-23 |