2月28日(火) 午前 SP1[音声合成] 座長: 齋藤 大輔(東大) 09:10 - 10:30 |
(1) SP |
09:10-09:30 |
基本周波数制御可能な高速ニューラル波形生成モデルの比較 |
○清水聡太(神戸大/NICT)・岡本拓磨(NICT)・高島遼一・滝口哲也(神戸大)・戸田智基(名大/NICT)・河井 恒(NICT) |
(2) SP |
09:30-09:50 |
MS-FC-HiFiGAN : 学習可能な軽量アップサンプリングを用いた高速 ニューラル波形生成モデル |
○山下陽生(神戸大/NICT)・岡本拓磨(NICT)・高島遼一・滝口哲也(神戸大)・戸田智基(名大/NICT)・河井 恒(NICT) |
(3) SP |
09:50-10:10 |
real-time MRIで収録した調音運動に基づくend-to-end音声合成 |
○大谷祐人・澤田 隼・大村英史・桂田浩一(東京理科大) |
(4) SP |
10:10-10:30 |
発声タイミングのずれを考慮したフレーム駆動型アテンション機構に基づく歌声合成 |
○西原美玖・法野行哉・橋本 佳・南角吉彦・徳田恵一(名工大) |
2月28日(火) 午前 EA1 座長: 若山 圭吾(NTT) 09:10 - 10:30 |
(5) EA |
09:10-09:30 |
信号保護に基づく音響システム測定法の拡張について ~ 繰り返しと直交化による後付けでの分析 ~ |
○河原英紀(和歌山大)・矢田部浩平(東京農工大)・榊原健一(北海道医療大)・水町光徳(九工大) |
(6) EA |
09:30-09:50 |
オイラーグラフ系列にもとづく非可聴音波通信のためのホッピングパターンの設計に関する一検討 |
○青木直史・尾関剛成(北大)・池田研一・安田 寛・難波弘行(スマート・ソリューション・テクノロジー) |
(7) EA |
09:50-10:10 |
小規模無響室内測定における反射音の影響 |
○樋口達也・金田 豊・陶山健仁(東京電機大) |
(8) EA |
10:10-10:30 |
正中面のPNPモデルによる全天空個人化頭部伝達関数の生成 |
○中村風香・飯田一博(千葉工大) |
|
10:30-10:40 |
休憩 ( 10分 ) |
2月28日(火) 午前 SLP 座長: 高島 遼一(神戸大) 10:40 - 12:00 |
(9) |
10:40-11:00 |
Multiple Latency CBS Streaming ASR for Conversational Systems
○Zhao Huaibo, Fujie Shinya, Ogawa Tetsuji, Sakuma Jin(早大), Kida Yusuke(LINE), Kobayashi Tetsunori(早大) |
(10) |
11:00-11:20 |
JNV コーパス: 多様なフレーズと感情を持つ日本語非言語音声コーパス
○辛徳泰・高道慎之介・猿渡洋(東大) |
(11) |
11:20-11:40 |
Fed-StarGANv2-VC:連合学習を用いた多対多声質変換
○平井龍之介・齋藤佑樹・猿渡洋(東大) |
(12) |
11:40-12:00 |
実環境下日本語話し言葉音声コーパスの構築と音声認識ベンチマーク
○三村正人・井上昂治・河原達也(京大)・中村友彦・猿渡洋(東大) |
2月28日(火) 午前 SIP1 座長: 村松 正吾(新潟大) 10:40 - 12:00 |
(13) SIP |
10:40-11:00 |
未知の劣化に頑健な画像分類のための拡散モデルを用いた画像再構成法 |
○赤澤輝昭(都立大)・木下裕磨(東海大)・貴家仁志(都立大) |
(14) SIP |
11:00-11:20 |
自己共分散行列空間における信号検出手法とそのロバスト性解析 |
○小野悠介・彭 林玉(慶大) |
(15) SIP |
11:20-11:40 |
LiGMEモデルを用いた多層非凸正則化によるグループスパース・低ランク凸最適化信号復元 |
○勝間朱里・京地清介(工学院大)・小野峻佑(東工大)・アイヴァン セレスニック(ニューヨーク大) |
(16) SIP |
11:40-12:00 |
共通誤差最小化に基づく音響エコー・雑音キャンセラ |
○岩居健太・西浦敬信(立命館大) |
|
12:00-13:00 |
昼休憩 ( 60分 ) |
2月28日(火) 午後 招待講演1 座長: 高道 慎之介(東大) 13:00 - 13:45 |
(17) SP |
13:00-13:45 |
[招待講演]マルチスポット再生 meets 多言語ニューラル音声合成 ~ 実装 is ホンマに all we need ~ |
○岡本拓磨(NICT) |
2月28日(火) 午後 招待講演2 座長: 小野 順貴(都立大) 13:45 - 14:30 |
(18) EA |
13:45-14:30 |
[招待講演]深層生成モデルと信号の独立性に基づく多チャンネル音源分離 |
○李 莉(サイバーエージェント) |
|
14:30-14:40 |
休憩 ( 10分 ) |
2月28日(火) 午後 ショート・オーラル1 座長: 塩田 さやか(都立大) 14:40 - 15:45 |
(19) 共通 |
14:40-14:45 |
白飛び画素やガウス雑音を含むぶれ画像に対するブラインドぶれ除去の正則化設計 |
○小林知弥・早川 諒・飯國洋二(阪大) |
(20) 共通 |
14:45-14:50 |
圧縮画像からの動画復元アルゴリズムへの深層展開の活用 |
○松田隆資・早川 諒・飯國洋二(阪大) |
(21) 共通 |
14:50-14:55 |
畳み込みスパース表現を用いた多焦点画像融合における画像間の位置ずれの考慮 |
○玉城 亮・早川 諒・飯國洋二(阪大) |
(22) 共通 |
14:55-15:00 |
呼気によるポップノイズを用いた発話者認証 |
○竹前健太・下倉良太・飯國洋二(阪大) |
(23) 共通 |
15:00-15:05 |
LMSアルゴリズムに基づく動画超解像における正則化に関する検討 |
○清水凌吾・早川 諒・飯國洋二(阪大) |
(24) 共通 |
15:05-15:10 |
ソース選択に基づくドメイン適応による頭蓋内脳波からのてんかん発作起始領域推定 |
○松林慶祐(東京農工大)・飯村康司・三橋 匠・菅野秀宣(順天堂大)・福森航輔・田中聡久(東京農工大) |
(25) 共通 |
15:10-15:15 |
学習済みニューラルボコーダによる頭蓋内脳波(ECoG)からの音声再合成 |
○重見 開・古明地秀治(東京農工大)・三橋 匠・飯村康司・鈴木皓晴・菅野秀宣(順天堂大)・篠田浩一(東工大)・矢田部浩平・田中聡久(東京農工大) |
(26) 共通 |
15:15-15:20 |
リズム応答時の脳波へ運動が与える影響 |
○荒井博貴・Ingon Chanpornpakdi・田中聡久(東京農工大) |
(27) 共通 |
15:20-15:25 |
距離に基づく音源分離を用いたシングルチャンネル環境音分類 |
○小倉稜也・塩田さやか(都立大)・井本桂右(同志社大)・貴家仁志(都立大) |
(28) 共通 |
15:25-15:30 |
臨界帯域幅を用いた転調条件によるコード進行の自動生成に基づく歯科治療音の快音化 |
○林 拓哉・高橋 徹・中山雅人(阪産大) |
(29) 共通 |
15:30-15:35 |
Speaker DiarizationのFine-tuning:日本語の会話音声における精度の計測と考察 |
○町田裕璃奈(筑波大)・山岡大志(Empath) |
(30) 共通 |
15:35-15:40 |
声質類似度の比較とMany-to-Many声質変換モデルを用いたAny-to-Many声質変換 |
○兵藤弘明・酒井哲也(早大) |
(31) 共通 |
15:40-15:45 |
日英バイリンガルの音声を対象にした異言語間での話者認識 |
○佐野遼太郎(千葉大)・西田昌史(静岡大)・柘植 覚(大同大)・黒岩眞吾・吉村博幸(千葉大) |
|
15:45-15:55 |
休憩 ( 10分 ) |
2月28日(火) 午後 SP-EA[音響・モデル] 座長: 中鹿 亘(電通大) 15:55 - 17:35 |
(32) SP |
15:55-16:15 |
音響イベント定位・検出のための空間情報付き映像・音響信号を用いた自己教師あり学習 |
○藤田陽斗(京大)・坂東宜昭(産総研)・井本桂右(同志社大/産総研)・大西正輝(産総研)・吉井和佳(京大) |
(33) SP |
16:15-16:35 |
Visual onoma-to-wave:画像オノマトペと音源画像を利用した環境音合成の提案 |
○大中緋慧(徳山高専)・高道慎之介(東大)・井本桂右(同志社大)・岡本悠希(立命館大)・藤井一貴・猿渡 洋(東大) |
(34) SP |
16:35-16:55 |
リー群論に基づく一般化ワーピング |
○宮下敦志・戸田智基(名大) |
(35) SP |
16:55-17:15 |
基本周波数適応型聴覚表現による声道長推定 |
○入野俊夫・土庵晋太郎(和歌山大) |
(36) EA |
17:15-17:35 |
目的信号に雑音を用いるDNN雑音除去の検討 |
○広政遼汰・大中緋慧・宮崎亮一(徳山高専) |
2月28日(火) 午後 EA-SIP 座長: 岩居 健太(立命館大) 15:55 - 17:35 |
(37) EA |
15:55-16:15 |
1-2-2マルチチャネル能動騒音制御システムの新しい構成法 |
○藤井健作(コダウェイ研)・棟安実治(関西大)・苣木禎史(千葉工大) |
(38) EA |
16:15-16:35 |
能動騒音制御システムにおける帰還系の常時推定法 |
○藤井健作(コダウェイ研)・棟安実治(関西大)・苣木禎史(千葉工大) |
(39) SIP |
16:35-16:55 |
複素重み付け加算回路の抑圧量に基づく音源定位法 |
○日高 司・陶山健仁(東京電機大) |
(40) SIP |
16:55-17:15 |
周波数領域適応フィルタの残留ノイズ除去への適用 |
○古澤 魁・陶山健仁(東京電機大) |
(41) SIP |
17:15-17:35 |
CSD係数FIRフィルタ設計のためのグループ化ACOの分割数の検討 |
○森川まり花・陶山健仁(東京電機大) |
3月1日(水) 午前 SP2[音声認識] 座長: 相原 龍(三菱電機) 09:10 - 10:30 |
(42) SP |
09:10-09:30 |
自己教師有り学習モデルXLSRと日本語諸方言コーパスを利用した諸方言音声認識モデル |
○三輪祥吾・甲斐充彦(静岡大) |
(43) SP |
09:30-09:50 |
Neural Transducer型音声認識におけるScheduled Samplingの検討 |
○森谷崇史・芦原孝典・佐藤 宏・松浦孝平・田中智大・増村 亮(NTT) |
(44) SP |
09:50-10:10 |
Domain Adaptation for Improving End-to-end ASR Performance of Classroom Speech with Variable Recording Condition |
○Raufun Nahar・Rino Suzuki・Atsuhiko Kai(Shizuoka Univ.) |
(45) SP |
10:10-10:30 |
日本語音声認識における語彙集合分割とマルチタスク学習による目的語彙抽出 |
○伊藤 葵(LINE/法政大)・小松達也・藤田雄介(LINE) |
3月1日(水) 午前 EA2 座長: 西浦 敬信(立命館大) 09:10 - 10:30 |
(46) EA |
09:10-09:30 |
半教師あり学習に基づく音響シーンと音響イベントの同時分析 |
○五十嵐彩美・椿 竣介・井本桂右(同志社大) |
(47) EA |
09:30-09:50 |
摩擦音の特徴抽出とハンドトラッキングを用いた振幅変調信号生成に基づく超音波空中ハプティクスの質感再現 |
○上田明日斗・高橋 徹・中山雅人(阪産大) |
(48) EA |
09:50-10:10 |
多チャネル音源分離のための独立低ランク行列分析に対するスペクトログラム無矛盾性に基づく正則化項の設計 |
○三澤颯大・高宗典玄(東大)・矢田部浩平(東京農工大)・北村大地(香川高専)・猿渡 洋(東大) |
(49) EA |
10:10-10:30 |
位相変動を考慮した複素数値ハイブリッドニューラルネットワークによる異常音検知 |
○西山翔大・玉森 聡(愛知工大) |
|
10:30-10:40 |
休憩 ( 10分 ) |
3月1日(水) 午前 SP3[韻律・変換] 座長: 増村 亮(NTT) 10:40 - 12:00 |
(50) SP |
10:40-11:00 |
入力特徴量で条件づけた拡散確率モデルによるパラレル声質変換 |
○岸田拓也・中鹿 亘(電通大) |
(51) SP |
11:00-11:20 |
日本語音声合成におけるアクセント句韻律特徴量の表現と予測 |
○佐藤匡紀・高道慎之介・猿渡 洋(東大) |
(52) SP |
11:20-11:40 |
音声対話システムのための入力音声の感情に同調する声質変換とx-vector埋め込みを用いたテキストからの音声合成方式の検討 |
○小原俊一・阿部匡伸・原 直(岡山大) |
(53) SP |
11:40-12:00 |
音響特徴量系列の変調に基づいた斉唱音声合成の検討 |
○宮沢 宙・菊地晏南・齋藤大輔・峯松信明(東大) |
3月1日(水) 午前 EA3 座長: 中山 雅人(阪産大) 10:40 - 12:00 |
(54) EA |
10:40-11:00 |
4マイクロホンの音圧レベル比に基づくスピーカー放射方向のオンライン推定 |
○津田龍星・前川大樹・粟谷朋留・中山雅人・高橋 徹(阪産大) |
(55) EA |
11:00-11:20 |
DNN音声強調におけるNoisy-target Trainingの分析と実応用に向けた調査 |
○藤村拓弥・戸田智基(名大) |
(56) EA |
11:20-11:40 |
スライディングDCT入力2DCNNを用いた固定フィルタ選択ANCシステムに関する検討 |
○土井健矢・梶川嘉延(関西大) |
(57) EA |
11:40-12:00 |
Predominant Instrument Recognition in Polyphonic Music Based on Transfer Learning with Vanilla ResNet-50 |
○Lifan Zhong・Daisuke Saito・Nobuaki Minematsu(UTokyo) |
|
12:00-13:00 |
昼休憩 ( 60分 ) |
3月1日(水) 午後 招待講演3 座長: 北岡 教英(豊橋技科大) 13:00 - 13:45 |
(58) SP |
13:00-13:45 |
[招待講演]What Do Self-Supervised Speech Representation Models Know?
-- A Layer-Wise Analysis -- |
○Karen Livescu・Ankita Pasad・Ju-Chieh Chou・Bowen Shi(TTI-Chicago) |
3月1日(水) 午後 招待講演4 座長: 小野 順貴(都立大) 13:45 - 14:30 |
(59) SP |
13:45-14:30 |
[招待講演]Speech and Language Research in the Google Tokyo Office |
○Michiel Bacchiani(Google) |
|
14:30-14:40 |
休憩 ( 10分 ) |
3月1日(水) 午後 ショート・オーラル2 座長: 井本 桂右(同志社大) 14:40 - 15:40 |
(60) 共通 |
14:40-14:45 |
マルチチャネル音声信号の時間的・空間的な変化を考慮した微分特徴量に基づく異常音検知手法 |
○西山翔大・玉森 聡(愛知工大) |
(61) 共通 |
14:45-14:50 |
Personality Recognition on Dyadic Interactions with Representation Learning |
○Nathania Nah(Tokyo Tech)・Takafumi Koshinaka(YCU)・Koichi Shinoda(Tokyo Tech) |
(62) 共通 |
14:50-14:55 |
多ドメイン共感的対話音声合成に向けた音声コーパスの構築 |
○齋藤佑樹・飯森栄治・高道慎之介(東大)・橘 健太郎(LINE)・猿渡 洋(東大) |
(63) 共通 |
14:55-15:00 |
周波数ビン選択と線形補間に基づくブラインド音源分離の高速化 |
○中村優希・宮崎亮一(徳山高専) |
(64) 共通 |
15:00-15:05 |
分散マイクロホンアレイにおける録音機器の自己位置推定とBlinkyを用いた実環境実験 |
○中村愛弓・宮崎亮一(徳山高専) |
(65) 共通 |
15:05-15:10 |
小規模学習データドメインのための文生成に基づく音声認識用言語モデルの構築 |
○前島 亮・森 大輝・若林佑幸・北岡教英(豊橋技科大) |
(66) 共通 |
15:10-15:15 |
言語・非言語情報タグを付与する音声認識モデルの検討 |
○塩根凪人・若林佑幸・北岡教英(豊橋技科大) |
(67) 共通 |
15:15-15:20 |
Long Short-term Memoryネットワークを用いた多チャンネルワンポイント球形マイクロホンにおける指向性制御 |
○内木正太・岩居健太・西浦敬信(立命館大)・添田喜治(産総研) |
(68) 共通 |
15:20-15:25 |
有限要素法によるエフェクトシンバルの周波数応答解析の検討 |
○井澤幸平・耿 毓庭・岩居健太・西浦敬信(立命館大) |
(69) 共通 |
15:25-15:30 |
デュアルローリングシャッタカメラの撮影動画像を用いた抽出音声の欠落セグメント補間による音質改善の検討 |
○中野隼汰・耿 毓庭・岩居健太・西浦敬信(立命館大) |
(70) 共通 |
15:30-15:35 |
Virtual multi-boosted振幅変調方式を用いた高復調効率型パラメトリックスピーカの検討 |
○池崎陽人・耿 毓庭(立命館大)・中山雅人(阪産大)・西浦敬信(立命館大) |
(71) 共通 |
15:35-15:40 |
外国にルーツを持つ学習者のための化学用語学習教材の開発 |
○徳本真優・石井朱美(芝浦工大) |
|
15:40-15:50 |
休憩 ( 10分 ) |
3月1日(水) 午後 SP4[音声処理・評価] 座長: 戸田 智基(名大) 15:50 - 17:30 |
(72) SP |
15:50-16:10 |
自己教師あり学習に基づく話者照合における言語性の影響 |
○若松智花(都立大)・安藤厚志(NTT)・塩田さやか(都立大)・増村 亮(NTT)・貴家仁志(都立大) |
(73) SP |
16:10-16:30 |
Increasing speech intelligibility for evacuation guidance by mimicking professional announcers' voice
-- Discussion on speech intelligibility and its physical correlates -- |
○KimDung Tran・Masato Akagi・Masashi Unoki(JAIST) |
(74) SP |
16:30-16:50 |
合成音検出を用いた話者照合のためのデータクレンジングの検討 |
○和田賢造・塩田さやか・貴家仁志(都立大) |
(75) SP |
16:50-17:10 |
音声エージェントの見た目と音声の印象合致度に対する人工感付与の影響 |
○井浦昂太・増田尚建・齋藤大輔・峯松信明(東大) |
(76) SP |
17:10-17:30 |
クラス事後確率に基づくミックスボイスを含めた声区情報の定量化 |
○北村 悠・菊地晏南・齋藤大輔・峯松信明(東大) |
3月1日(水) 午後 SIP2 座長: 京地 清介(工学院大) 15:50 - 17:40 |
(77) SIP |
15:50-16:10 |
Multiscale Manifold Clustering and Embedding with Multiple Kernels |
○Kyohei Suzuki・Masahiro Yukawa(Keio Univ.) |
(78) SIP |
16:10-16:30 |
有向グラフ信号に対する実フィルタ設計に関する検討 |
○村松正吾・北村帆高・安田浩保(新潟大)・田中雄一(阪大) |
(79) SIP |
16:30-16:50 |
ループ展開ISTAによる低ビット画像復元 |
○阿部 周・高橋颯志・村松正吾(新潟大) |
(80) SIP |
16:50-17:10 |
ハイブリッドANCシステムにおけるバーチャルセンシング法の検討 |
○豊岡祥太・梶川嘉延(関西大) |
(81) SIP |
17:10-17:30 |
顕著性とエッジの融合によるReverse Attentionを用いたRGB-D顕著物体検出 |
○池田智輝・池原雅章(慶大) |
(82) |
17:30-17:40 |
閉会 |