IEICE Technical Report

Online edition: ISSN 2432-6380

Volume 124, Number 391

Speech

Workshop Date : 2025-03-02 - 2025-03-04 / Issue Date : 2025-02-23

[TOP] | [2020] | [2021] | [2022] | [2023] | [2024] | [2025] | [2026] | [Japanese] / [English]

SP2024-18
Uncertainty-Based Streaming ASR with Evidential Deep Learning
Hiroaki Sato, Asahi Sakuma, Ryuga Sugano, Tadashi Kumano, Yoshihiko Kawai (NHK STRL), Ogawa Tetsuji (Waseda Univ.)
pp. 1 - 6

SP2024-19
Sound field estimation method robust to microphone position error
Takumi Koga, Ueno Natsuki (Kumamoto Univ.)
pp. 7 - 12

SP2024-20
Acoustic Wave Propagation Simulation with Wave Equation-based Neural Networks
Shota Okubo, Toshiharu Horiuchi (KDDI Research, Inc.)
pp. 13 - 18

SP2024-21
Sound field reconstruction with sparse channel acoustic signals based on simultaneous learning of graph and signal interpolation
Shihori Kozuka, Takayuki Sasaki (NTT), Yukihiro Bando (Shimonoseki City Univ.), Hiroaki Itou, Kazuya Hayase, Noriyoshi Kamado, Masaki Kitahara (NTT)
pp. 19 - 26

SP2024-22
Implementation of Sound Field Synthesis Renderer for Volumetric Audio
Yo Sasaki, Yasushige Nakayama (NHK)
pp. 27 - 33

SP2024-23
An Experimental Study on Text-independent Speaker Verification for Forensic Applications
Shigeki Ozawa (YCU), Akira Gotoh, Yuko Saito, Hiroki Matsuura (NEC), Takafumi Koshinaka (YCU)
pp. 34 - 39

SP2024-24
Speaker Verification Based on Deformable Convolutional Networks
Keiya Sato, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda (NITech)
pp. 40 - 45

SP2024-25
Speech-Activity-Guided Speaker Embedding Extraction
Shota Horiguchi, Takafumi Moriya, Atsushi Ando, Takanori Ashihara, Hiroshi Sato, Naohiro Tawara, Marc Delcroix (NTT)
pp. 46 - 51

SP2024-26
Joint Diagonalization Based on Equivalence Classes of Orthogonal Matrices by Signed Permutations and Weighted Averaging in the Cayley Transform Domain
Akira Tanaka, Takafumi Edo (Hokkaido Univ.)
pp. 52 - 57

SP2024-27
Algebraic representation of dynamical systems in time-frequency domain: An extension to integro-differential equations
Shigeru Ando (Univ. Tokyo)
pp. 58 - 63

SP2024-28
Toward nonlinear system identification
Fumihiko Ishiyama (NTT)
pp. 64 - 69

SP2024-29
Zero-Shot Speech Synthesis Directly Referring Target Speech Through Attention Mechanisms
Kyohei Nakatsuka, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda (Nagoya Inst. of Tech.)
pp. 70 - 75

SP2024-30
Affective Impression Structural Models and Individual Differences in Chord Listening
Sakura Sakamoto (Kwansei Gakuin Univ.), Yoichi Yamazaki (Univ. of Nagasaki), Kenji Katahira (Waseda Univ.), Takashi Fujisawa (Univ. of Fukui), Noriko Nagata (Kwansei Gakuin Univ.)
pp. 76 - 82

SP2024-31
A Value Structure Model and Individual Differences for the Designing of Pleasant Motor Drive Sounds
Jun Urayama, Noriko Nagata (Kwansei Gakuin Univ.), Yoichi Yamazaki (Univ. of Nagasaki), Yuto kobayashi, Yasunori Sugita (Nagaoka Univ. of Technology), Takashi Hoduki, Akira Satake, Hiroyasu Iwabuki (MELCO)
pp. 83 - 88

SP2024-32
Localization of Victims Using Equivalent Rotating Sound Sources
Atsuhisa Nakane, Takaaki Nara (UTokyo)
pp. 89 - 97

SP2024-33
Sound image localization experiments using shoulder-mounted wearable speakers with an inverse filter applied using H-infinity control theory
Kenji Kita (Daido Univ.)
pp. 98 - 103

SP2024-34
(See Japanese page.)
p. 104

SP2024-35
[Invited Talk] Time-domain and spatial-domain linear predictive analysis and its application for audio and speech lossless coding standards
Yutaka Kamamoto (NTT)
pp. 105 - 108

SP2024-36
Study on a Japanese Speech Understanding Model Robust to Multi-Item Questioning
Yuki Takashima, Atsushi Ando, Taichi Asami (NTT)
pp. 109 - 114

SP2024-37
Measurement of time delay tolerance for third-person game live audio commentary
Ryosuke Matsushita, Ryosuke Sakai, Koki Fukuda (Keio Univ.), Shinnosuke Takamichi (Keio Univ./UTokyo), Kota Iura, Yuki Saito (UTokyo), Graham Neubig (CMU), Katsuhito Sudoh (NWU), Hiroya Takamura, Tatsuya Ishigaki (AIST)
pp. 115 - 120

SP2024-38
[Poster Presentation] Machine-type dependent positive and negative division of training data for unsupervised anomalous detection of machinery sounds
Yuuki Tachioka (Denso IT Laboratory)
pp. 121 - 125

SP2024-39
[Poster Presentation] Evaluation of Sound Field and Multizone Reproduction Performance in Loudspeaker Arrays with Different Enclosures
Tong Zhou, Kana Itahashi, Akitoshi Kataoka (Ryukoku Univ.)
pp. 126 - 131

SP2024-40
[Poster Presentation] Shifted sound-image perception using pre-virtual-leading hypersonic signals with bass frequency envelopes
Ryota Imanaka, Yuting Geng (Ritsumeikan Univ.), Masato Nakayama (Osaka Sangyo Univ), Takanobu Nishiura (Ritsumeikan Univ.)
pp. 132 - 137

SP2024-41
[Poster Presentation] Decentralized Independent Vector Analysis Based on Majorization-Minimization Algorithm for Distributed Microphone Arrays
Katsuhiro Morita, Kouei Yamaoka, Norihiro Takamune, Hiroshi Saruwatari (UTokyo)
pp. 138 - 145

SP2024-42
[Poster Presentation] Evaluation of noise reduction performance of multichannel feedforward ANC system with optical laser microphone in reverberant environments
Maoto Mizutani, Kenta Iwai, Takanobu Nishiura (Ritsumeikan Univ.), Yoshiharu Soeta (AIST)
pp. 146 - 151

SP2024-43
[Poster Presentation] Study on Virtual Sensing ANC Using Tetrahedral Microphone Arrays
Toma Yoshimatsu (UEC), Hiroaki Itou, Shihori Kozuka, Noriyoshi Kamado (NTT), Yoichi Haneda (UEC)
pp. 152 - 157

SP2024-44
[Poster Presentation] Improvement of Localization Performance in Binaural Rendering with Panning for Transmission Systems with Delay
Kenta Takeuchi, Masayuki Nishiguchi, Koji Abe, Kanji Watanabe (Akita Prefectural Univ.)
pp. 158 - 165

SP2024-45
[Poster Presentation] Creation of representative head-related impulse responses for smooth reproduction of moving audio objects
Kazuki Hoshito, Masayuki Nishiguchi, Kanji Watanabe, Koji Abe (Akita Prefectural Univ.)
pp. 166 - 173

SP2024-46
[Poster Presentation] Augmentation of Asynchronous Data for Acoustic Scene Classification Using Asynchronous Distributed Microphone Arrays
Takao Kawamura, Nobutaka Ono (TMU)
pp. 174 - 179

SP2024-47
[Poster Presentation] Performance Evaluation of Active Noise Control System without Error Microphone Introducing Primary Path Estimation under Moving Noise Source Position.
Ryo Matsuura, Shota Toyooka (Kansai Univ.), Kenta Iwai (Ritsumeikan Univ.), Yoshinobu Kajikawa (Kansai Univ.)
pp. 180 - 185

SP2024-48
[Poster Presentation] Numerical Simulation based Design of Moving Sound Sources Using Impulse Response Combination and Acoustic Effects Integration
Ryuuta Kouma, Sun Chang, Kan Okubo (TMU)
pp. 186 - 192

SP2024-49
Proposal and Analysis of Metric for Evaluating Sampling Frequency Independence Based on Local Equivariance Error
Kanami Imamura (UTokyo/AIST), Tomohiko Nakamura (AIST), Norihiro Takamune (UTokyo), Kouhei Yatabe (TUAT), Hiroshi Saruwatari (UTokyo)
pp. 193 - 198

SP2024-50
Traffic Volume and Speed Estimation Using Pre-trained Audio Model
Tomohiro Takahashi (TMU), Natsuki Ueno (TMU/Kumamoto Univ.), Yuma Kinoshita (Tokai Univ.), Yukoh Wakabayashi (TUT), Nobutaka Ono (TMU), Makiho Sukekawa, Seishi Fukuma, Hiroshi Nakagawa (NEE)
pp. 199 - 206

SP2024-51
A method of estimating the power of residual noise by using the auxiliary filter
Kensaku Fujii (Kodaway Lab.), Mitsuji Muneyasu (Kansai Univ.), Yoshifumi Chisaki (CIT)
pp. 207 - 214

SP2024-52
Memory-efficient and low-computational hierarchical musical instruments classification using element selection
Ryu Kato (Tokyo Metropolitan Univ.), Natsuki Ueno (Kumamoto Univ./), Nobutaka Ono (Tokyo Metropolitan Univ.), Ryo Matsuda, Kazunobu Kondo, Yu Takahashi (Yamaha Corp.)
pp. 215 - 220

SP2024-53
[Poster Presentation] Low-Dose DECT Image Reconstruction Using Edge Sparsity and Similarity
Akira Egashira, Daichi Kitahara (Keio Univ.)
pp. 221 - 226

SP2024-54
[Poster Presentation] Validation of the Optimality and Usefulness of Tight Windows Designed via Manifold Optimization
Keito Takahashi, Daichi Kitahara (Keio Univ.)
pp. 227 - 232

SP2024-55
[Poster Presentation] 1D Nonnegative Spline Smoothing by Convex Semi-Infinite Programming
Hiroki Arai, Daichi Kitahara (Keio Univ.)
pp. 233 - 238

SP2024-56
[Poster Presentation] MMSE Beamforming with the Consistency of Multiple Covariance Matrices for Phased Array Weather Radar
Shinji Naito, Daichi Kitahara (Keio Univ.)
pp. 239 - 244

SP2024-57
[Poster Presentation] An Extension of Privacy-Preserving FedSGD Federated Learning with Random Binary Weights to FedAvg Federated Learning
Hiroto Sawada, Shoko Imaizumi (Chiba Univ.), Hitoshi Kiya (Tokyo Metropolitan Univ.)
pp. 245 - 250

SP2024-58
[Poster Presentation] Pseudo Artifacts and Data Augmentation for Real-World Video Deblurring Using Deep Learning
Sota Moriyama, Koichi Ichige (YNU)
pp. 251 - 256

SP2024-59
[Poster Presentation] Multichannel Speech Enhancement Method Using Dilated Semi-Dense Convolution Network
Tomohiro Ueyama, Koichi Ichige (Yokohama National Univ.), Takahiro Murakami (Meiji Univ.)
pp. 257 - 262

SP2024-60
[Poster Presentation] Detecting Human-Object Contact Using Human Region Enlargement on Video
Kaito Kira, Sota Moriyama, Koichi Ichige (Yokohama National Univ.)
pp. 263 - 268

SP2024-61
[Poster Presentation] Study on Hybrid Compensation Selective Fixed-Filter Active Noise Control Using One-Dimensional CNN
Hiroki Tsukahara, Shota Toyooka (Kansai Univ.), Kenta Iwai (Ritsumeikan Univ.), Shunsuke Kita (ORIST), Yoshinobu Kajikawa (Kansai Univ.)
pp. 269 - 274

SP2024-62
[Poster Presentation] [Poster Presentation] Improvement of Estimation of Variance for Acoustic Echo and Noise Canceller Based on Variable-Step-Size-Shared-Error NLMS Algorithm
Kenta Iwai (Ritsumeikan Univ.)
pp. 275 - 280

SP2024-63
[Poster Presentation] On System Identification Based on Dynamic Mode Decomposition with Control for Model Predictive Control
Sekiya Futamura (Niigata grad school), Shogo Muramatsu (Niigata Univ)
pp. 281 - 286

SP2024-64
[Special Invited Talk] Spatial Audio Intelligence: From Representation to Understanding and Control of Auditory Environments
Woon-Seng Gan (NTU Singapore)
pp. 287 - 288

SP2024-65
CLaSP: Multimodal Foundation Model Using Time Series Signal Data and Natural Language
Aoi Ito (Hitachi Ltd./Hosei Univ.), Kota Dohi, Yohei Kawaguchi (Hitachi Ltd.)
pp. 289 - 294

SP2024-66
Domain-Independent Automatic Generation of Descriptive Texts for Time-Series Data
Kota Dohi (Hitachi), Aoi Ito (Hitachi/Hosei), Harsh Purohit, Tomoya Nishida, Takashi Endo, Yohei Kawaguchi (Hitachi)
pp. 295 - 300

SP2024-67
Riverbed Estimation using Locally-Structured Unitary Network with Multiresolution Representation
Seiyu Hitomi, Godage Yasas, Hiroyasu Yasuda, Kiyoshi Hayasaka, Shogo Muramatsu (Niigata Univ.)
pp. 301 - 306

SP2024-68
Online Short-term Prediction of Riverbed Evolution Using Extended Dynamic Mode Decomposition
Reiya Asuke, Masahiro Yukawa (Keio Univ.), Shogo Muramatsu, Daichi Moteki, Hiroyasu Yasuda (Niigata Univ.)
pp. 307 - 312

SP2024-69
[Poster Presentation] Improving Conv-TasNet for Multi-Channel Speech Enhancement and Examination of Microphone Placement
Taisuke Morikawa, Akitoshi Kataoka (Grad. Sch., Ryukoku Univ.)
pp. 313 - 318

SP2024-70
[Poster Presentation] An Analysis of Speaker Representation for Target-Speaker Speech Processing
Takanori Ashihara, Takafumi Moriya, Shota Horiguchi (NTT), Junyi Peng (BUT), Tsubasa Ochiai, Marc Delcroix, Kohei Matsuura, Hiroshi Sato (NTT)
pp. 319 - 324

SP2024-71
[Poster Presentation] Speech spoofing detection using deep learning model with multiple acoustic features
Haruto Namba, Sayaka Shiota (TMU)
pp. 325 - 328

SP2024-72
[Poster Presentation] Necessity of Voice Sample Selection in Qualification Tests for Crowdsourced Subjective Audio Quality Evaluation
Takuma Yabe, Moe Yaegashi, Teppei Nakano, Tetsuji Ogawa (Waseda Univ.)
pp. 329 - 334

SP2024-73
[Poster Presentation] JIS: Japanese Speech Corpus of Idol Speakers with Various Speaking Styles
Yuto Kondo, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko (NTT)
pp. 335 - 340

SP2024-74
(See Japanese page.)
pp. 341 - 344

SP2024-75
Performance Evaluation of Data-driven Water Level Distribution Prediction for Integrated River Control
Hiromu Kanauchi, Ryuto Ito, Hiroyasu Yasuda (Niigata Univ.), Masaaki Nagahara (Hiroshima Univ.), Shogo Muramatsu (Niigata Univ.)
pp. 345 - 350

SP2024-76
Estimation of Riverbed Undulation using DMDc for Active River Channel Control with Groynes and Its Evaluation
Chen Zhang, Hiroyasu Yasuda, Kiyoshi Hayasaka, Shogo Muramatsu (Niigata Univ.)
pp. 351 - 356

SP2024-77
Clustering for time-varying graphs with varying number of nodes
Tomoya Akabayashi (Osaka Univ.), Hayate Kojima (TUAT), Junya Hara, Hiroshi Higashi, Yuichi Tanaka (Osaka Univ.)
pp. 357 - 362

SP2024-78
Generalized Graph Signal Sampling with Pre-selection of Critical Vertices
Keitaro Yamashita, Kazuki Naganuma, Shunsuke Ono (Science Tokyo)
pp. 363 - 368

SP2024-79
[Poster Presentation] Construction of a ASR model based on self-supervised learning using intermediate layer outputs
Keigo Hojo, Yukoh Wakabayashi (TUT), Kengo Ohta (NITAC), Atsunori Ogawa (NTT), Norihide Kitaoka (TUT)
pp. 369 - 374

SP2024-80
[Poster Presentation] Improvement and Evaluation of End of Utterance Time Estimation Method for Spoken Dialog Systems
Takanori Kanai, Yukoh Wakabayashi (TUT), Ryota Nishimura (Tokushima Univ.), Norihide Kitaoka (TUT)
pp. 375 - 380

SP2024-81
[Poster Presentation] Improvement of the GESI for Predicting Speech Intelligibility in Older Adults
Ayako Yamamoto, Fuki Miyazaki, Toshio Irino (Wakayama Univ.)
pp. 381 - 386

SP2024-82
[Poster Presentation] Sammo: Incorporating MAMBA-2 into Modern Streaming Encoders for Japanese ASR
Wen Shen Teo, Yasuhiro Minami (UEC)
pp. 387 - 390

SP2024-83
[Poster Presentation] Improvement of Speech Recognition Performance for Elderly Speech by Alternating Learning of Acoustic and Linguistic information
Kaito Takahashi, Yukoh Wakabayashi (TUT), Kengo Ohta (NIT, Anan College), Norihide Kitaoka (TUT)
pp. 391 - 396

SP2024-84
[Poster Presentation] Source Separation Based on Regularization Using Back-Projected Demixing Vectors
Kukuru Koiso, Taishi Nakashima, Nobutaka Ono (TMU)
pp. 397 - 402

SP2024-85
[Poster Presentation] Real-Time Blind Source Separation for Head-Mounted Microphone Array Using Own Voice Selection Based on Relative Transfer Function
Kyoka Kazama, Taishi Nakashima, Nobutaka Ono (TMU)
pp. 403 - 408

SP2024-86
[Poster Presentation] Source-specific forgetting factor in multiplicative update online AuxIVA.
Kaito Masuko, Taishi Nakashima, Nobutaka Ono (Tokyo Metropolitan Univ.)
pp. 409 - 414

SP2024-87
[Poster Presentation] Noise Self-Supervised Rank-Constrained Spatial Covariance Matrix Estimation Using Independent Deeply Learned Matrix Analysis for Real-Time Multichannel Speech Extraction in Diffuse Noise Environment
Yuki Nakanishi, Yuto Ishikawa, Norihiro Takamune, Hiroshi Saruwatari (The Univ. of Tokyo)
pp. 415 - 422

SP2024-88
[Poster Presentation] Two-Stage Processing of Blind Source Separation and DNN-based Speech Enhancement for In-Car Speech Recognition
Yutsuki Takeuchi, Taishi Nakashima, Nobutaka Ono (Tokyo Metropolitan Univ.), Takashi Takazawa, Shuhei Shimanoe, Yoshinori Tsuchiya (MIRISE Technologies)
pp. 423 - 428

SP2024-89
[Poster Presentation] Speech Synthesis from Electrocorticogram During Imagined Speech Using a Transformer-Based Decoder
Shuji Komeiji, Kai Shigemi (TUAT), Takumi Mitsuhashi, Yasushi Iimura, Hiroharu Suzuki, Hidenori Sugano (Juntendou Univ.), Koichi Shinoda (Science Tokyo), Kohei Yatabe, Toshihisa Tanaka (TUAT)
pp. 429 - 434

SP2024-90
[Poster Presentation] Control of 3D Physical Model of Movable Artificial Variable Width Channel with Reinforcement Learning -- For River Digital Twin --
Ryusei Aoki, Sisaykeo Phonepaserth, Shogo Muramatsu (Niigata Univ.)
pp. 435 - 440

SP2024-91
[Poster Presentation] Fundamental considerations for dynamics modeling with Locally Structured Unitary Network
Motoyasu Suzuki, Yasas Godage, Shogo Muramatsu (Nigata Univ.)
pp. 441 - 446

SP2024-92
[Poster Presentation] A Study of Constraints on Directivity Design Method for Improving Suppression Performance
Miryu Goino, Kenji Suyama (Tokyo Denki Univ.)
pp. 447 - 452

SP2024-93
[Poster Presentation] A dynamic data augmentation method using diffusion models for classification of intensive care EEG
Takuma Bingo, Hajime Yano, Taichiro Ashizaki, Kazuma Koda, Masaya Togo (Kobe Univ.), Riki Matsumoto (Kobe Univ./Kyoto Univ.), Ryoichi Takashima, Tetsuya Takiguchi (Kobe Univ.)
pp. 453 - 458

SP2024-94
[Poster Presentation] Individual differences in interoception affects brain activity during music recall
Kazuki Matsunaga, Ingon Chanpornpakdi, Toshihisa Tanaka (TUAT)
pp. 459 - 464

SP2024-95
[Poster Presentation] Nonnegative Sparse Optimization Using Relu Activation Function and Its Application to Deep Unfolding
Haruki Esaki, Towa Yasui, Seisuke Kyochi (Kogakuin Univ.)
pp. 465 - 470

SP2024-96
[Poster Presentation] Sparse Modeling for Electroencephalogram-based Sustained Attention Assessment
Masaya Togashi, Ingon Chanpornpakdi, Toshihisa Tanaka (TUAT)
pp. 471 - 476

SP2024-97
[Poster Presentation] Large-Scale Numerical Simulation of Tsunami-Induced Infrasound Using Spherical Coordinates
Masami Tokuda, Yoshiki Saito, Kan Okubo (TMU)
pp. 477 - 480

SP2024-98
[Poster Presentation] Study on Acoustic Analysis of Microspeakers Based on Electromagnetic-Structural-Acoustic Coupling
Kakeru Yamaguchi, Shota Toyooka (Kansai Univ.), Kenta Iwai (Ritsumeikan Univ.), Shunsuke Kita (ORIST), Yoshinobu Kajikawa (Kansai Univ.)
pp. 481 - 485

SP2024-99
[Poster Presentation] Acoustic Vibration Analysis of Distributed Mode Loudspeaker (DML) Using Pattern Structures
Yuito Kimura, Kan Okubo (Tokyo Metropolitan Univ.)
pp. 486 - 490

Note: Each article is a technical report without peer review, and its polished version will be published elsewhere.

The Institute of Electronics, Information and Communication Engineers (IEICE), Japan

IEICE Technical Report

Volume 124, Number 391

Speech

Table of contents