講演抄録/キーワード |
講演名 |
2020-01-22 14:00
[ポスター講演]VAD入出力間の類似性比較によって得られた音響特徴量について ○信楽 希・山森 圭(金沢大)・Suci Dwijayanti(Sriwijaya大)・三好正人(金沢大) EA2019-95 |
抄録 |
(和) |
ディープニューラルネットワーク(DNN)を用いた音声区間検出(VAD)を検討している.音声信号のLPS(Log power spectra)と,各LPSの1次・2次微分値から計算される音声区間候補(SPCs)をDNNへ入力することで優れたVAD性能を得ている.そこで,VAD結果とSPCsの類似性を比較することにより音響特徴量の取得を考えた.本報告では,類似性比較を長時間(各発話のフレーム長)と短時間(日本語モーラ長程度)にした際に,得られた基本周波数(F0)について考察する. |
(英) |
We have been studying Voice activity detection (VAD) using a deep neural network (DNN). Log power spectra (LPS) and Speech period candidates (SPCs) are input into the DNN, where SPCs are numerically calculated from the 1st and 2nd derivative sequences of the LPS. We are now aiming to obtain speech features from similarities between SPCs and VAD decision. In this report, we will discuss Fundamental frequencies (F0) which are estimated from long term (each speech frames) and short term (japanese mora frames) similarities. |
キーワード |
(和) |
音声区間検出 (VAD) / Speech period candidates / Log power spectra / 音響特徴量 / 基本周波数 / / / |
(英) |
Voice activity detection (VAD) / Speech period candidates / Log power spectra / Speech features / Fundamental frequency / / / |
文献情報 |
信学技報, vol. 119, no. 375, EA2019-95, pp. 67-72, 2020年1月. |
資料番号 |
EA2019-95 |
発行日 |
2020-01-15 (EA) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
EA2019-95 |