講演抄録/キーワード |
講演名 |
2021-06-19 15:00
深層学習に基づく楽器音分類のための画像分類ネットワークを用いたファインチューニング ○城間佑樹・木下裕磨・塩田さやか・貴家仁志(都立大) SP2021-17 |
抄録 |
(和) |
本研究では,楽器音分類タスクに画像分類ネットワークを用いる際のファインチューニングのためのチャネル変換法の比較評価を行う.近年,環境音識別や感情認識など様々なタスクにおいて深層学習を用いた手法が提案されている.また,深層学習に用いる学習データが少ない場合に,画像分類タスクのネットワークでファインチューニングを行うことで音に関するタスクの性能が改善することが報告されている.音を入力とする場合は画像ネットワークの入力に対応させるためにスペクトログラムを用いることが多いが,スペクトログラムが1チャネルデータとなっているのに対し,画像の入力を前提にしたネットワークはRGBの3チャネルデータが入力されることを想定しているため,チャネル数を合わせる必要がある.チャネルを変換する手法としてこれまでに,各チャネルに同じデータを複製をする手法,動的特徴量を用いる手法,スペクトログラムをカラー画像化する手法などが提案されているが,手法の違いが精度にどの程度影響するか明らかにされていない.そこで本研究では,様々なチャネル変換法がファインチューニングの結果にどのような影響を与えるのかについて比較を行う.本実験では,ImageNetと呼ばれる大規模な画像データを用いて学習されたネットワークに対してファインチューニングを行い楽器音分類を行った.チャネル変換法として6種類の手法を比較したところ,実験結果よりカラー画像化がImageNetに適していたことを報告する. |
(英) |
In this paper, we investigate abilities of channel conversion methods for fine-tuning with image classification networks under deep neural network-based musical instrument classification. Recently, many deep neural network-based methods have been proposed for scene classification, emotion recognition tasks, and so on. It has also been reported that fine-tuning techniques with well-trained networks using large-scale image dataset improve the performance of sound classification tasks when the limited amount of training data is available. In this case, while a spectrogram extracted from sound data is usually regarded as an image and inputted to the fine-tuned networks with the image classification tasks, the spectrogram image is not suitable to the fine-tuned network because the input of the image classification networks assumes the three channel data like RGB. In this case, the spectrogram is required to be converted to the three channel data, and many methods such as spectrogram duplication method, a method using delta as coefficients and colorization of a spectrogram have been proposed. However, there is no discussion how these methods affect the accuracies. Therefore, we compare various channel conversion methods via fine-tuning of the image classification networks. In the experiments, we performed musical instrument classificaiton with fine-tuning of the well-trained networks by ImageNet. From the results, compared among six channel conversion methods, the colorization of a spectrogram was the most suitable for the fine-tuning with the image classification networks. |
キーワード |
(和) |
楽器音分類 / 画像分類ネットワーク / ファインチューニング / チャネル変換 / / / / |
(英) |
Acoustic musical instrument classification / image classification network / fine-tuning / channel conversion / / / / |
文献情報 |
信学技報, vol. 121, no. 66, SP2021-17, pp. 75-79, 2021年6月. |
資料番号 |
SP2021-17 |
発行日 |
2021-06-11 (SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2021-17 |