お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2023-02-21 14:45
360度映像におけるマルチビュー学習に基づくバイノーラル音声生成の高精度化に関する検討
吉田将規藤後 廉小川貴弘長谷山美紀北大
抄録 (和) 本稿では,360 度映像を用いたマルチビュー学習に基づくバイノーラル音声生成の高精度化に関する検討を行う.従来,視覚的情報に基づくバイノーラル音声生成の学習には,グラウンドトゥルースとなるバイノーラル音声が必要となるが,本研究では,360度映像から学習データとなる映像・音声を作成し,バイノーラル音声生成の学習を行う.ユーザが自由に視点を操作可能な360度映像を用いることで,視線方向が異なる複数の映像データを作成可能とし,同一のシーンにおける異なる視線方向の映像に基づくマルチビュー学習を可能とする.さらに,映像フレームと音声における視線方向が一致しない映像を作成し,映像フレームと音声における視線方向のずれの予測を行なうことで,映像フレーム中の音源位置と音声の到来方向の関係を学習する事前学習を行う.そして,360度映像から作成された学習データを用いて,事前学習済みのネットワークを利用したバイノーラル音声生成の学習を行うことで,バイノーラル音声生成の精度向上を図る. 
(英) In this paper, we propose a binaural audio generation method based on multi-view learning using 360◦ videos. Conventionally, learning visually informed binaural audio generation requires ground truth binaural audio. We generate training video data from 360◦ videos and train binaural audio generation. By using 360◦ videos, which allow users to freely manipulate their viewpoints, we can generate multiple video data with different viewing directions. Our approach enables multi-view learning based on videos of the same scene with different viewing directions. Furthermore, we conduct pre-training before binaural audio generation for learning spatial correspondence between the video frame and the audio. In the pre-training, we generate videos in which the gaze direction does not match that of the audio and predict the gap in gaze direction. By using the data generated from 360◦ videos and pre-trained networks, we can improve the accuracy of binaural audio generation.
キーワード (和) マルチモーダル学習 / バイノーラル音声 / 360 度映像 / マルチビュー学習 / 事前学習 / / /  
(英) Multi-modal learning / Binaural audio / 360° video / Multi-view learning / Pre-training / / /  
文献情報 信学技報
資料番号  
発行日  
ISSN Online edition: ISSN 2432-6380
PDFダウンロード

研究会情報
研究会 IE ITS ITE-MMS ITE-ME ITE-AIT  
開催期間 2023-02-21 - 2023-02-22 
開催地(和) 北海道大学 
開催地(英) Hokkaido Univ. 
テーマ(和) 画像処理,一般 
テーマ(英) Image Processing, etc. 
講演論文情報の詳細
申込み研究会 ITE-ME 
会議コード 2023-02-MMS-ME-AIT-IE-ITS 
本文の言語 日本語 
タイトル(和) 360度映像におけるマルチビュー学習に基づくバイノーラル音声生成の高精度化に関する検討 
サブタイトル(和)  
タイトル(英) A Note on Improvement of Binauralization Performance Based on Multi-view Learning on 360° Videos 
サブタイトル(英)  
キーワード(1)(和/英) マルチモーダル学習 / Multi-modal learning  
キーワード(2)(和/英) バイノーラル音声 / Binaural audio  
キーワード(3)(和/英) 360 度映像 / 360° video  
キーワード(4)(和/英) マルチビュー学習 / Multi-view learning  
キーワード(5)(和/英) 事前学習 / Pre-training  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 吉田 将規 / Masaki Yoshida / ヨシダ マサキ
第1著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第2著者 氏名(和/英/ヨミ) 藤後 廉 / Ren Togo / トウゴ レン
第2著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第3著者 氏名(和/英/ヨミ) 小川 貴弘 / Takahiro Ogawa / オガワ タカヒロ
第3著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第4著者 氏名(和/英/ヨミ) 長谷山 美紀 / Miki Haseyama / ハセヤマ ミキ
第4著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2023-02-21 14:45:00 
発表時間 15分 
申込先研究会 ITE-ME 
資料番号  
巻番号(vol) vol.122 
号番号(no)  
ページ範囲  
ページ数  
発行日  


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会