複数音声の分離再構成に向けた聴覚数理モデル導出型ラダーネットワーク

関口,浩; 成末,義哲; 森川,博之

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2018-07-26 16:15 複数音声の分離再構成に向けた聴覚数理モデル導出型ラダーネットワーク ○関口　浩・成末義哲・森川博之（東大） SP2018-18
抄録	（和）	霊長類や哺乳類には同時に発声する外部音源を聴覚脳神経系で聞き分ける能力がある．それに対して，従来の重畳音声スペクトラム比を用いた音声分離再構成方式ではその性能は十分とは言えない．聴覚脳神経学によると，聴覚の分離能力は，聴覚音声特徴量抽出と時間同期性検知クラスタリングの2つの機能で構成される．前者は音声を聴覚神経細胞集団が分析し，聴覚音声特徴量時間系列を出力する機能である．後者はそれら音声特徴量時間系列の発生開始時間点および終了時間点が類似のものを同一の音源とし，異なるものを他の音源として判断する機能である．本稿では聴覚脳神経学の知見に基づく重畳音声の音声分離再構成について述べる．その際に2つの機能に必要な親和性を定義する．聴覚音声特徴量抽出および時間同期性検知クラスタリングを，非線形スパースエンコーダデコーダモデルおよび時間コヒーレントモデルによりそれぞれ定式化し，両者の接続性を考慮してラダーネットワークにより設計および実装を行う．
	（英）	This paper introduces ladder network implementation induced by auditory computational model for multi-talker speech separation. The conventional approach of learning mask ratio of spectrum has been intensively investigated. However, compared with auditory system, it remains limiting in performance in such a way that reconstructed speech shows signal-to distortion ratio (SDR) around 10dB at best. To improve SDR performance, we are inspired by auditory neuroscience, which says speech separation consists of two functions, auditory speech feature extraction and temporal synchronization detection and clustering. The first analyzes speech features and the latter extracts features varying synchronized with the low-frequency-below-5Hz movement of mouth, which are grouped as one speaker, whereas unsynchronized movement grouped as different one. We consider the importance of affinity constraint between these two functions. We derive two different computational models from two functions with this constraint. Then ladder network implements these two computational models with suitable network structures to proper reconstruction path.
キーワード	（和）	音声分離 / 時間コヒーレント / 聴覚脳神経学 / ラダーネットワーク / / / /
	（英）	speech separation / temporal coherence / auditory neuroscience / ladder network / / / /
文献情報		信学技報, vol. 118, no. 160, SP2018-18, pp. 9-13, 2018年7月.
資料番号		SP2018-18
発行日		2018-07-19 (SP)
ISSN		Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		SP2018-18

研究会情報
研究会	SP IPSJ-SLP
開催期間	2018-07-26 - 2018-07-27
開催地（和）	舘山寺サゴーロイヤルホテル
開催地（英）	Sago-Royal-Hotel (Hamamatsu)
テーマ（和）	認識，理解，対話，一般
テーマ（英）	Speech recognition and understanding, dialog system, etc.
講演論文情報の詳細
申込み研究会	SP
会議コード	2018-07-SP-SLP
本文の言語	日本語
タイトル（和）	複数音声の分離再構成に向けた聴覚数理モデル導出型ラダーネットワーク
サブタイトル（和）
タイトル（英）	Ladder Network Driven from Auditory Computational Model for Multi-talker Speech Separation
サブタイトル（英）
キーワード(1)（和/英）	音声分離 / speech separation
キーワード(2)（和/英）	時間コヒーレント / temporal coherence
キーワード(3)（和/英）	聴覚脳神経学 / auditory neuroscience
キーワード(4)（和/英）	ラダーネットワーク / ladder network
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	関口浩 / Hiroshi Sekiguchi / セキグチヒロシ
第1著者所属（和/英）	東京大学 (略称：東大) The University of Tokyo (略称： Univ. of Tokyo)
第2著者氏名（和/英/ヨミ）	成末義哲 / Yoshiaki Narusue / ヨシアキナルスエ
第2著者所属（和/英）	東京大学 (略称：東大) The University of Tokyo (略称： Univ. of Tokyo)
第3著者氏名（和/英/ヨミ）	森川博之 / Hiroyuki Morikawa / ヒロユキモリカワ
第3著者所属（和/英）	東京大学 (略称：東大) The University of Tokyo (略称： Univ. of Tokyo)
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2018-07-26 16:15:00
発表時間	30分
申込先研究会	SP
資料番号	SP2018-18
巻番号（vol）	vol.118
号番号（no）	no.160
ページ範囲	pp.9-13
ページ数	5
発行日	2018-07-19 (SP)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会