360度映像におけるマルチビュー学習に基づくバイノーラル音声生成の高精度化に関する検討

吉田,将規; 藤後,廉; 小川,貴弘; 長谷山,美紀

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2023-02-21 14:45 360度映像におけるマルチビュー学習に基づくバイノーラル音声生成の高精度化に関する検討 ○吉田将規・藤後　廉・小川貴弘・長谷山美紀（北大）
抄録	（和）	本稿では，360 度映像を用いたマルチビュー学習に基づくバイノーラル音声生成の高精度化に関する検討を行う．従来，視覚的情報に基づくバイノーラル音声生成の学習には，グラウンドトゥルースとなるバイノーラル音声が必要となるが，本研究では，360度映像から学習データとなる映像・音声を作成し，バイノーラル音声生成の学習を行う．ユーザが自由に視点を操作可能な360度映像を用いることで，視線方向が異なる複数の映像データを作成可能とし，同一のシーンにおける異なる視線方向の映像に基づくマルチビュー学習を可能とする．さらに，映像フレームと音声における視線方向が一致しない映像を作成し，映像フレームと音声における視線方向のずれの予測を行なうことで，映像フレーム中の音源位置と音声の到来方向の関係を学習する事前学習を行う．そして，360度映像から作成された学習データを用いて，事前学習済みのネットワークを利用したバイノーラル音声生成の学習を行うことで，バイノーラル音声生成の精度向上を図る．
	（英）	In this paper, we propose a binaural audio generation method based on multi-view learning using 360◦ videos. Conventionally, learning visually informed binaural audio generation requires ground truth binaural audio. We generate training video data from 360◦ videos and train binaural audio generation. By using 360◦ videos, which allow users to freely manipulate their viewpoints, we can generate multiple video data with different viewing directions. Our approach enables multi-view learning based on videos of the same scene with different viewing directions. Furthermore, we conduct pre-training before binaural audio generation for learning spatial correspondence between the video frame and the audio. In the pre-training, we generate videos in which the gaze direction does not match that of the audio and predict the gap in gaze direction. By using the data generated from 360◦ videos and pre-trained networks, we can improve the accuracy of binaural audio generation.
キーワード	（和）	マルチモーダル学習 / バイノーラル音声 / 360 度映像 / マルチビュー学習 / 事前学習 / / /
	（英）	Multi-modal learning / Binaural audio / 360° video / Multi-view learning / Pre-training / / /
文献情報		信学技報
資料番号
発行日
ISSN		Online edition: ISSN 2432-6380
PDFダウンロード

研究会情報
研究会	IE ITS ITE-MMS ITE-ME ITE-AIT
開催期間	2023-02-21 - 2023-02-22
開催地（和）	北海道大学
開催地（英）	Hokkaido Univ.
テーマ（和）	画像処理，一般
テーマ（英）	Image Processing, etc.
講演論文情報の詳細
申込み研究会	ITE-ME
会議コード	2023-02-MMS-ME-AIT-IE-ITS
本文の言語	日本語
タイトル（和）	360度映像におけるマルチビュー学習に基づくバイノーラル音声生成の高精度化に関する検討
サブタイトル（和）
タイトル（英）	A Note on Improvement of Binauralization Performance Based on Multi-view Learning on 360° Videos
サブタイトル（英）
キーワード(1)（和/英）	マルチモーダル学習 / Multi-modal learning
キーワード(2)（和/英）	バイノーラル音声 / Binaural audio
キーワード(3)（和/英）	360 度映像 / 360° video
キーワード(4)（和/英）	マルチビュー学習 / Multi-view learning
キーワード(5)（和/英）	事前学習 / Pre-training
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	吉田将規 / Masaki Yoshida / ヨシダマサキ
第1著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第2著者氏名（和/英/ヨミ）	藤後廉 / Ren Togo / トウゴレン
第2著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第3著者氏名（和/英/ヨミ）	小川貴弘 / Takahiro Ogawa / オガワタカヒロ
第3著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第4著者氏名（和/英/ヨミ）	長谷山美紀 / Miki Haseyama / ハセヤマミキ
第4著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2023-02-21 14:45:00
発表時間	15分
申込先研究会	ITE-ME
資料番号
巻番号（vol）	vol.122
号番号（no）
ページ範囲
ページ数
発行日

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会