お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2018-07-26 16:15
複数音声の分離再構成に向けた聴覚数理モデル導出型ラダーネットワーク
関口 浩成末義哲森川博之東大SP2018-18
抄録 (和) 霊長類や哺乳類には同時に発声する外部音源を聴覚脳神経系で聞き分ける能力がある.
それに対して,従来の重畳音声スペクトラム比を用いた音声分離再構成方式ではその性能は十分とは言えない.聴覚脳神経学によると,聴覚の分離能力は,聴覚音声特徴量抽出と時間同期性検知クラスタリングの2つの機能で構成される.前者は音声を聴覚神経細胞集団が分析し,聴覚音声特徴量時間系列を出力する機能である.後者はそれら音声特徴量時間系列の発生開始時間点および終了時間点が類似のものを同一の音源とし,異なるものを他の音源として判断する機能である.本稿では聴覚脳神経学の知見に基づく重畳音声の音声分離再構成について述べる.その際に2つの機能に必要な親和性を定義する.聴覚音声特徴量抽出および時間同期性検知クラスタリングを,非線形スパースエンコーダデコーダモデルおよび時間コヒーレントモデルによりそれぞれ定式化し,両者の接続性を考慮してラダーネットワークにより設計および実装を行う. 
(英) This paper introduces ladder network implementation induced by auditory computational model for multi-talker speech separation. The conventional approach of learning mask ratio of spectrum has been intensively investigated. However, compared with auditory system, it remains limiting in performance in such a way that reconstructed speech shows signal-to distortion ratio (SDR) around 10dB at best. To improve SDR performance, we are inspired by auditory neuroscience, which says speech separation consists of two functions, auditory speech feature extraction and temporal synchronization detection and clustering. The first analyzes speech features and the latter extracts features varying synchronized with the low-frequency-below-5Hz movement of mouth, which are grouped as one speaker, whereas unsynchronized movement grouped as different one. We consider the importance of affinity constraint between these two functions. We derive two different computational models from two functions with this constraint. Then ladder network implements these two computational models with suitable network structures to proper reconstruction path.
キーワード (和) 音声分離 / 時間コヒーレント / 聴覚脳神経学 / ラダーネットワーク / / / /  
(英) speech separation / temporal coherence / auditory neuroscience / ladder network / / / /  
文献情報 信学技報, vol. 118, no. 160, SP2018-18, pp. 9-13, 2018年7月.
資料番号 SP2018-18 
発行日 2018-07-19 (SP) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード SP2018-18

研究会情報
研究会 SP IPSJ-SLP  
開催期間 2018-07-26 - 2018-07-27 
開催地(和) 舘山寺サゴーロイヤルホテル 
開催地(英) Sago-Royal-Hotel (Hamamatsu) 
テーマ(和) 認識,理解,対話,一般 
テーマ(英) Speech recognition and understanding, dialog system, etc. 
講演論文情報の詳細
申込み研究会 SP 
会議コード 2018-07-SP-SLP 
本文の言語 日本語 
タイトル(和) 複数音声の分離再構成に向けた聴覚数理モデル導出型ラダーネットワーク 
サブタイトル(和)  
タイトル(英) Ladder Network Driven from Auditory Computational Model for Multi-talker Speech Separation 
サブタイトル(英)  
キーワード(1)(和/英) 音声分離 / speech separation  
キーワード(2)(和/英) 時間コヒーレント / temporal coherence  
キーワード(3)(和/英) 聴覚脳神経学 / auditory neuroscience  
キーワード(4)(和/英) ラダーネットワーク / ladder network  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 関口 浩 / Hiroshi Sekiguchi / セキグチ ヒロシ
第1著者 所属(和/英) 東京大学 (略称: 東大)
The University of Tokyo (略称: Univ. of Tokyo)
第2著者 氏名(和/英/ヨミ) 成末 義哲 / Yoshiaki Narusue / ヨシアキ ナルスエ
第2著者 所属(和/英) 東京大学 (略称: 東大)
The University of Tokyo (略称: Univ. of Tokyo)
第3著者 氏名(和/英/ヨミ) 森川 博之 / Hiroyuki Morikawa / ヒロユキ モリカワ
第3著者 所属(和/英) 東京大学 (略称: 東大)
The University of Tokyo (略称: Univ. of Tokyo)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2018-07-26 16:15:00 
発表時間 30分 
申込先研究会 SP 
資料番号 SP2018-18 
巻番号(vol) vol.118 
号番号(no) no.160 
ページ範囲 pp.9-13 
ページ数
発行日 2018-07-19 (SP) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会