講演抄録/キーワード |
講演名 |
2021-06-18 15:00
[ポスター講演]スペクトルとケプストラムの時系列特徴を用いた深層学習による悲鳴検知 ○福森隆寛(立命館大) SP2021-6 |
抄録 |
(和) |
平静音声と悲鳴の分類は,音響監視システムを実現する上で欠かせない技術である.近年は深層ニューラルネットワークを用いて悲鳴を検知する手法が提案されているが,Mel-frequency Cepstral Coefficientsやメルスペクトルなどの低次元特徴量をネットワークの入力に用いられていることが多い.本稿では,高次元特徴量であるスペクトルとケプストラムの時系列特徴を融合した悲鳴検知手法を提案する.本研究では,畳み込みニューラルネットワーク (CNN: Convolutional Neural Network ),ゲート付きリカレントニューラルユニット (GRU: Gated Recurrent Unit),および,これらを統合したネットワーク (CNN--GRU)の3種類のネットワーク構造を比較する.実際の平静音声と悲鳴から構成される音声コーパスを用いて提案した特徴学習手法の有効性を検証した.雑音環境下における評価実験の結果,提案したスペクトルとケプストラムの時系列特徴に基づいたCNN-GRUが,単一の特徴量に基づいたネットワークよりも優れた分類精度を達成した.この結果は,悲鳴検知だけでなく,音響イベント検出における音声の発話状態推定に高次元特徴量が有効であることも示唆している. |
(英) |
Discrimination between normal speech and scream is crucial in audio surveillance and monitoring. Although deep neural networks are used in recent methods, traditional low-level speech features are applied, such as mel-frequency cepstral coefficients and the mel spectrum. This paper proposes a scream detection method that fuses high-dimensional time-sequential features in spectral and cepstral domains. We compare the following three types of architectures as base networks: convolutional neural networks (CNNs), gated recurrent unit (GRU) networks, and their combination (CNN-GRU). Using a corpus comprising real normal speech and scream, we present a comprehensive comparison with conventional methods to verify the effectiveness of the proposed feature learning method. The results of experiments conducted in various noisy environments demonstrate that the CNN-GRU based on our spectral-and-cepstral features achieves better classification performance than single feature-based networks. This finding suggests the effectiveness of using high-dimensional sources for speech-type recognition in sound event detection. |
キーワード |
(和) |
悲鳴 / スペクトル / ケプストラム / 時系列特徴 / 深層学習 / / / |
(英) |
scream / spectrum / cepstrum / time-sequential feature / deep learning / / / |
文献情報 |
信学技報, vol. 121, no. 66, SP2021-6, pp. 31-36, 2021年6月. |
資料番号 |
SP2021-6 |
発行日 |
2021-06-11 (SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2021-6 |