講演抄録/キーワード |
講演名 |
2019-07-20 13:00
ニューラルソフトマスクを用いた所望方向の音声抽出のための適応ビームフォーマ ○中込 優(早大/LINE)・戸上真人(LINE)・小林哲則(早大) SP2019-8 |
抄録 |
(和) |
教師あり学習による音源到来方向 (DOA)推定に基づくマルチチャネル音声抽出法を提案する.
目的方向から到来する音声のみを通過させる時間周波数マスクから推定される共分散行列によってマルチチャネルビームフォーマが構成される.
提案する時間周波数マスクは時間周波数ごとのDOA推定結果から構成されるが,時間周波数ごとのDOA推定結果はマイク配置のズレや初期反射音の影響に敏感に影響を受けることが知られている.
提案法では広帯域の推定結果を用いて誤ったDOA推定結果の補正を教師あり学習する.
また,共分散行列の推定に適さない時間周波数ビンを小さな重みにするといった,時間周波数ビンの信頼度を推定する.
提案法では,ニューラルネットワークのパラメータは与える目的方向に依存していないため,目的方向を自由に操作できる.
実験の結果,提案法では,目的方向や音源の性別,マイク配置に関わらず目的音を抽出でき,また時間周波数ビンの信頼度の推定を行った方が,信頼度の推定を行わなかったものより高い音声抽出性能を示すことを確認した. |
(英) |
A multi-channel speech extraction guided by direction-of-arrival (DOA) estimation is addressed in this paper. A multi-channel beamformer is constructed by multi-channel covariance matrices estimated via a time-frequency mask (TFM) which passes a speech source coming from the target direction. The TFM in the proposed method is constructed via the DOA estimate. Since the DOA estimate is sensitive to microphone-arrangement error or early reverberation effect, the proposed method restores the DOA estimate in a supervised way with a neural network. Additionally, reliability of each time-frequency bin is also estimated so as to lower weight for a time-frequency bin which is not adequate for estimation of the multi-channel covariance matrices. In the proposed method, the network parameters are free from the target direction setting and the target direction is controllable. Experimental results indicate that the proposed method can extract the target speech regardless of target direction, gender, and microphone arrangement and that TFM w/ reliability estimation can extract the target speech more accurately than the TFM w/o reliability estimation. |
キーワード |
(和) |
空間ビームフォーマ / 時間周波数マスク / 到来音源方向推定 / ニューラルネットワーク / 音声抽出 / / / |
(英) |
spatial beamforming / time-frequency mask / DOA estimation / neural networks / speech extraction / / / |
文献情報 |
信学技報, vol. 119, no. 138, SP2019-8, pp. 9-14, 2019年7月. |
資料番号 |
SP2019-8 |
発行日 |
2019-07-13 (SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2019-8 |