お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2023-03-03 16:50
歌唱音素列の知覚的損失を考慮したCycleGANによるノンパラレルデータ日本語歌い手変換
玄元 奏島田伸敬松尾直志立命館大PRMU2022-114 IBISML2022-121
抄録 (和) 本論文ではパラレルデータを必要としない一対一の日本語歌声変換手法を提案する.
提案手法はCycleGANに基づくスペクトログラム変換において,音声認識モデルを用いた歌唱音素列における知覚的損失を導入することにより,歌唱者変換後の歌声の品質を改善する.
モード崩壊を抑制するAdaptive Multi Adversarial Trainingを用いることに加え,敵対的訓練の切り替えを識別器の精度を元に制御することで,少数の日本語歌声データを用いて歌唱者の変換を行うことができることを報告する. 
(英) This paper proposes a one-to-one Japanese Singing Voice Conversion (SVC) method without using parallel data.
Our method improves naturalness of singing by introducing the sung phoneme sequence perceptual loss, utilizing a speech recognition model in CycleGAN-based spectrogram conversion.
In addition to incorporating the Adaptive Multi Adversarial Training(AMAT) framework, which prevents mode collapse, we demonstrate that singer conversion can be performed using a limited amount of Japanese singing data by controlling the adversarial training switch based on the accuracy of the Discriminator.
キーワード (和) 歌声変換 / ノンパラレルデータ / 知覚的損失 / CycleGAN / スペクトログラム / AMAT / MelGAN /  
(英) Singing Voice Conversion / Non-parallel Data / Perceptual Loss / CycleGAN / Spectrogram / AMAT / MelGAN /  
文献情報 信学技報, vol. 122, no. 404, PRMU2022-114, pp. 293-298, 2023年3月.
資料番号 PRMU2022-114 
発行日 2023-02-23 (PRMU, IBISML) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード PRMU2022-114 IBISML2022-121

研究会情報
研究会 PRMU IBISML IPSJ-CVIM  
開催期間 2023-03-02 - 2023-03-03 
開催地(和) はこだて未来大学 
開催地(英) Future University Hakodate 
テーマ(和) 異分野連携(PRMU)、AutoML (CVIM)、機械学習の理論と応用の広がり(IBISML) 
テーマ(英)  
講演論文情報の詳細
申込み研究会 PRMU 
会議コード 2023-03-PRMU-IBISML-CVIM 
本文の言語 日本語 
タイトル(和) 歌唱音素列の知覚的損失を考慮したCycleGANによるノンパラレルデータ日本語歌い手変換 
サブタイトル(和)  
タイトル(英) Parallel-Data-Free Japanese Singer Conversion using CycleGAN Considering Perceptual Loss in Singing Phoneme Sequences 
サブタイトル(英)  
キーワード(1)(和/英) 歌声変換 / Singing Voice Conversion  
キーワード(2)(和/英) ノンパラレルデータ / Non-parallel Data  
キーワード(3)(和/英) 知覚的損失 / Perceptual Loss  
キーワード(4)(和/英) CycleGAN / CycleGAN  
キーワード(5)(和/英) スペクトログラム / Spectrogram  
キーワード(6)(和/英) AMAT / AMAT  
キーワード(7)(和/英) MelGAN / MelGAN  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 玄元 奏 / Kanade Gemmoto / ゲンモト カナデ
第1著者 所属(和/英) 立命館大学 (略称: 立命館大)
Ritsumeikan University (略称: Ritsumeikan Univ)
第2著者 氏名(和/英/ヨミ) 島田 伸敬 / Nobutaka Shimada / シマダ ノブタカ
第2著者 所属(和/英) 立命館大学 (略称: 立命館大)
Ritsumeikan University (略称: Ritsumeikan Univ)
第3著者 氏名(和/英/ヨミ) 松尾 直志 / Tadashi Matsuo / マツオ タダシ
第3著者 所属(和/英) 立命館大学 (略称: 立命館大)
Ritsumeikan University (略称: Ritsumeikan Univ)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2023-03-03 16:50:00 
発表時間 10分 
申込先研究会 PRMU 
資料番号 PRMU2022-114, IBISML2022-121 
巻番号(vol) vol.122 
号番号(no) no.404(PRMU), no.405(IBISML) 
ページ範囲 pp.293-298 
ページ数
発行日 2023-02-23 (PRMU, IBISML) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会