講演抄録/キーワード |
講演名 |
2018-08-27 11:35
[ポスター講演]GANによる音声を対象とした感情変換の実験的評価 ○安田研二・折原良平・清 雄一・田原康之・大須賀昭彦(電通大) SP2018-26 |
抄録 |
(和) |
ドメイン変換タスクは深層学習の発展によって,より自然で高精度な出力を生成することを可能としている.特にGAN(Generative Adversarial Network)の登場によって,汎用的な変換学習が行えるようになった.音声を対象としたドメイン変換の一例に声質変換がある.声質変換は話者ドメイン変換と言い換えることができ,数多く研究されている.しかし,話者以外の情報を変換する研究は少ない.より自然な音声合成を目的とする場合,話者情報以外の変換について研究する必要がある.そこで本研究では,CycleGANを用いて音声を対象とした感情ドメイン変換を行なった.特に,学習・変換する特徴量について,基本周波数とメル周波数ケプストラム係数を組み合わせた.また,変換器は複数話者を含む学習データを用いて作成した.「ANG(anger)」「HAP(hapiness)」「SAD(sadness)」を対象に変換を行なった.評価実験の結果,女性話者の「ANG」への変換について高い性能を発揮することができた. |
(英) |
In domain transfer task deep learning has made it possible to generate more natural and highly accurate output. Especially with the advent of GAN(Generative Adversarial Network), learning of transfers between unspecified domains has become possible. Voice conversion is an example of domain transformation for speech. Voice conversion can be paraphrased as speaker domain transformation, where many studies have been done. However, few studies have focused on transformations other than speakers. When aiming at a more natural speech synthesis, it is necessary to study transformations other than speaker. Therefore, in this research, we use a model called CycleGAN to perform voice conversion on emotions. Especially, the acoustic feature to learn and convert combines fundamental frequency(F0) and Mel-Frequency Cepstrum Coefficients(MFCC). Also, the converter generated using training data, including multiple speakers. We selected "ANG(anger)", "HAP(happiness)", "SAD(sadness)" as conversion targets. As a result of evaluation experiments, the model performs well on conversion to "ANG" in female speakers. |
キーワード |
(和) |
深層学習 / ドメイン変換 / 敵対的生成ネットワーク / 声質変換 / 音声処理 / / / |
(英) |
Deep Learning / Domain Transfer / Generative Adversarial Network / Voice Conversion / Speech Processing / / / |
文献情報 |
信学技報, vol. 118, no. 198, SP2018-26, pp. 19-22, 2018年8月. |
資料番号 |
SP2018-26 |
発行日 |
2018-08-20 (SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2018-26 |