IEICE Technical Report

Online edition: ISSN 2432-6380

Volume 124, Number 390

Signal Processing

Workshop Date : 2025-03-02 - 2025-03-04 / Issue Date : 2025-02-23

[TOP] | [2020] | [2021] | [2022] | [2023] | [2024] | [2025] | [2026] | [Japanese] / [English]

SIP2024-112
Uncertainty-Based Streaming ASR with Evidential Deep Learning
Hiroaki Sato, Asahi Sakuma, Ryuga Sugano, Tadashi Kumano, Yoshihiko Kawai (NHK STRL), Ogawa Tetsuji (Waseda Univ.)
pp. 1 - 6

SIP2024-113
Sound field estimation method robust to microphone position error
Takumi Koga, Ueno Natsuki (Kumamoto Univ.)
pp. 7 - 12

SIP2024-114
Acoustic Wave Propagation Simulation with Wave Equation-based Neural Networks
Shota Okubo, Toshiharu Horiuchi (KDDI Research, Inc.)
pp. 13 - 18

SIP2024-115
Sound field reconstruction with sparse channel acoustic signals based on simultaneous learning of graph and signal interpolation
Shihori Kozuka, Takayuki Sasaki (NTT), Yukihiro Bando (Shimonoseki City Univ.), Hiroaki Itou, Kazuya Hayase, Noriyoshi Kamado, Masaki Kitahara (NTT)
pp. 19 - 26

SIP2024-116
Implementation of Sound Field Synthesis Renderer for Volumetric Audio
Yo Sasaki, Yasushige Nakayama (NHK)
pp. 27 - 33

SIP2024-117
An Experimental Study on Text-independent Speaker Verification for Forensic Applications
Shigeki Ozawa (YCU), Akira Gotoh, Yuko Saito, Hiroki Matsuura (NEC), Takafumi Koshinaka (YCU)
pp. 34 - 39

SIP2024-118
Speaker Verification Based on Deformable Convolutional Networks
Keiya Sato, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda (NITech)
pp. 40 - 45

SIP2024-119
Speech-Activity-Guided Speaker Embedding Extraction
Shota Horiguchi, Takafumi Moriya, Atsushi Ando, Takanori Ashihara, Hiroshi Sato, Naohiro Tawara, Marc Delcroix (NTT)
pp. 46 - 51

SIP2024-120
Joint Diagonalization Based on Equivalence Classes of Orthogonal Matrices by Signed Permutations and Weighted Averaging in the Cayley Transform Domain
Akira Tanaka, Takafumi Edo (Hokkaido Univ.)
pp. 52 - 57

SIP2024-121
Algebraic representation of dynamical systems in time-frequency domain: An extension to integro-differential equations
Shigeru Ando (Univ. Tokyo)
pp. 58 - 63

SIP2024-122
Toward nonlinear system identification
Fumihiko Ishiyama (NTT)
pp. 64 - 69

SIP2024-123
Zero-Shot Speech Synthesis Directly Referring Target Speech Through Attention Mechanisms
Kyohei Nakatsuka, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda (Nagoya Inst. of Tech.)
pp. 70 - 75

SIP2024-124
Affective Impression Structural Models and Individual Differences in Chord Listening
Sakura Sakamoto (Kwansei Gakuin Univ.), Yoichi Yamazaki (Univ. of Nagasaki), Kenji Katahira (Waseda Univ.), Takashi Fujisawa (Univ. of Fukui), Noriko Nagata (Kwansei Gakuin Univ.)
pp. 76 - 82

SIP2024-125
A Value Structure Model and Individual Differences for the Designing of Pleasant Motor Drive Sounds
Jun Urayama, Noriko Nagata (Kwansei Gakuin Univ.), Yoichi Yamazaki (Univ. of Nagasaki), Yuto kobayashi, Yasunori Sugita (Nagaoka Univ. of Technology), Takashi Hoduki, Akira Satake, Hiroyasu Iwabuki (MELCO)
pp. 83 - 88

SIP2024-126
Localization of Victims Using Equivalent Rotating Sound Sources
Atsuhisa Nakane, Takaaki Nara (UTokyo)
pp. 89 - 97

SIP2024-127
Sound image localization experiments using shoulder-mounted wearable speakers with an inverse filter applied using H-infinity control theory
Kenji Kita (Daido Univ.)
pp. 98 - 103

SIP2024-128
(See Japanese page.)
p. 104

SIP2024-129
[Invited Talk] Time-domain and spatial-domain linear predictive analysis and its application for audio and speech lossless coding standards
Yutaka Kamamoto (NTT)
pp. 105 - 108

SIP2024-130
Study on a Japanese Speech Understanding Model Robust to Multi-Item Questioning
Yuki Takashima, Atsushi Ando, Taichi Asami (NTT)
pp. 109 - 114

SIP2024-131
Measurement of time delay tolerance for third-person game live audio commentary
Ryosuke Matsushita, Ryosuke Sakai, Koki Fukuda (Keio Univ.), Shinnosuke Takamichi (Keio Univ./UTokyo), Kota Iura, Yuki Saito (UTokyo), Graham Neubig (CMU), Katsuhito Sudoh (NWU), Hiroya Takamura, Tatsuya Ishigaki (AIST)
pp. 115 - 120

SIP2024-132
[Poster Presentation] Machine-type dependent positive and negative division of training data for unsupervised anomalous detection of machinery sounds
Yuuki Tachioka (Denso IT Laboratory)
pp. 121 - 125

SIP2024-133
[Poster Presentation] Evaluation of Sound Field and Multizone Reproduction Performance in Loudspeaker Arrays with Different Enclosures
Tong Zhou, Kana Itahashi, Akitoshi Kataoka (Ryukoku Univ.)
pp. 126 - 131

SIP2024-134
[Poster Presentation] Shifted sound-image perception using pre-virtual-leading hypersonic signals with bass frequency envelopes
Ryota Imanaka, Yuting Geng (Ritsumeikan Univ.), Masato Nakayama (Osaka Sangyo Univ), Takanobu Nishiura (Ritsumeikan Univ.)
pp. 132 - 137

SIP2024-135
[Poster Presentation] Decentralized Independent Vector Analysis Based on Majorization-Minimization Algorithm for Distributed Microphone Arrays
Katsuhiro Morita, Kouei Yamaoka, Norihiro Takamune, Hiroshi Saruwatari (UTokyo)
pp. 138 - 145

SIP2024-136
[Poster Presentation] Evaluation of noise reduction performance of multichannel feedforward ANC system with optical laser microphone in reverberant environments
Maoto Mizutani, Kenta Iwai, Takanobu Nishiura (Ritsumeikan Univ.), Yoshiharu Soeta (AIST)
pp. 146 - 151

SIP2024-137
[Poster Presentation] Study on Virtual Sensing ANC Using Tetrahedral Microphone Arrays
Toma Yoshimatsu (UEC), Hiroaki Itou, Shihori Kozuka, Noriyoshi Kamado (NTT), Yoichi Haneda (UEC)
pp. 152 - 157

SIP2024-138
[Poster Presentation] Improvement of Localization Performance in Binaural Rendering with Panning for Transmission Systems with Delay
Kenta Takeuchi, Masayuki Nishiguchi, Koji Abe, Kanji Watanabe (Akita Prefectural Univ.)
pp. 158 - 165

SIP2024-139
[Poster Presentation] Creation of representative head-related impulse responses for smooth reproduction of moving audio objects
Kazuki Hoshito, Masayuki Nishiguchi, Kanji Watanabe, Koji Abe (Akita Prefectural Univ.)
pp. 166 - 173

SIP2024-140
[Poster Presentation] Augmentation of Asynchronous Data for Acoustic Scene Classification Using Asynchronous Distributed Microphone Arrays
Takao Kawamura, Nobutaka Ono (TMU)
pp. 174 - 179

SIP2024-141
[Poster Presentation] Performance Evaluation of Active Noise Control System without Error Microphone Introducing Primary Path Estimation under Moving Noise Source Position.
Ryo Matsuura, Shota Toyooka (Kansai Univ.), Kenta Iwai (Ritsumeikan Univ.), Yoshinobu Kajikawa (Kansai Univ.)
pp. 180 - 185

SIP2024-142
[Poster Presentation] Numerical Simulation based Design of Moving Sound Sources Using Impulse Response Combination and Acoustic Effects Integration
Ryuuta Kouma, Sun Chang, Kan Okubo (TMU)
pp. 186 - 192

SIP2024-143
Proposal and Analysis of Metric for Evaluating Sampling Frequency Independence Based on Local Equivariance Error
Kanami Imamura (UTokyo/AIST), Tomohiko Nakamura (AIST), Norihiro Takamune (UTokyo), Kouhei Yatabe (TUAT), Hiroshi Saruwatari (UTokyo)
pp. 193 - 198

SIP2024-144
Traffic Volume and Speed Estimation Using Pre-trained Audio Model
Tomohiro Takahashi (TMU), Natsuki Ueno (TMU/Kumamoto Univ.), Yuma Kinoshita (Tokai Univ.), Yukoh Wakabayashi (TUT), Nobutaka Ono (TMU), Makiho Sukekawa, Seishi Fukuma, Hiroshi Nakagawa (NEE)
pp. 199 - 206

SIP2024-145
A method of estimating the power of residual noise by using the auxiliary filter
Kensaku Fujii (Kodaway Lab.), Mitsuji Muneyasu (Kansai Univ.), Yoshifumi Chisaki (CIT)
pp. 207 - 214

SIP2024-146
Memory-efficient and low-computational hierarchical musical instruments classification using element selection
Ryu Kato (Tokyo Metropolitan Univ.), Natsuki Ueno (Kumamoto Univ./), Nobutaka Ono (Tokyo Metropolitan Univ.), Ryo Matsuda, Kazunobu Kondo, Yu Takahashi (Yamaha Corp.)
pp. 215 - 220

SIP2024-147
[Poster Presentation] Low-Dose DECT Image Reconstruction Using Edge Sparsity and Similarity
Akira Egashira, Daichi Kitahara (Keio Univ.)
pp. 221 - 226

SIP2024-148
[Poster Presentation] Validation of the Optimality and Usefulness of Tight Windows Designed via Manifold Optimization
Keito Takahashi, Daichi Kitahara (Keio Univ.)
pp. 227 - 232

SIP2024-149
[Poster Presentation] 1D Nonnegative Spline Smoothing by Convex Semi-Infinite Programming
Hiroki Arai, Daichi Kitahara (Keio Univ.)
pp. 233 - 238

SIP2024-150
[Poster Presentation] MMSE Beamforming with the Consistency of Multiple Covariance Matrices for Phased Array Weather Radar
Shinji Naito, Daichi Kitahara (Keio Univ.)
pp. 239 - 244

SIP2024-151
[Poster Presentation] An Extension of Privacy-Preserving FedSGD Federated Learning with Random Binary Weights to FedAvg Federated Learning
Hiroto Sawada, Shoko Imaizumi (Chiba Univ.), Hitoshi Kiya (Tokyo Metropolitan Univ.)
pp. 245 - 250

SIP2024-152
[Poster Presentation] Pseudo Artifacts and Data Augmentation for Real-World Video Deblurring Using Deep Learning
Sota Moriyama, Koichi Ichige (YNU)
pp. 251 - 256

SIP2024-153
[Poster Presentation] Multichannel Speech Enhancement Method Using Dilated Semi-Dense Convolution Network
Tomohiro Ueyama, Koichi Ichige (Yokohama National Univ.), Takahiro Murakami (Meiji Univ.)
pp. 257 - 262

SIP2024-154
[Poster Presentation] Detecting Human-Object Contact Using Human Region Enlargement on Video
Kaito Kira, Sota Moriyama, Koichi Ichige (Yokohama National Univ.)
pp. 263 - 268

SIP2024-155
[Poster Presentation] Study on Hybrid Compensation Selective Fixed-Filter Active Noise Control Using One-Dimensional CNN
Hiroki Tsukahara, Shota Toyooka (Kansai Univ.), Kenta Iwai (Ritsumeikan Univ.), Shunsuke Kita (ORIST), Yoshinobu Kajikawa (Kansai Univ.)
pp. 269 - 274

SIP2024-156
[Poster Presentation] [Poster Presentation] Improvement of Estimation of Variance for Acoustic Echo and Noise Canceller Based on Variable-Step-Size-Shared-Error NLMS Algorithm
Kenta Iwai (Ritsumeikan Univ.)
pp. 275 - 280

SIP2024-157
[Poster Presentation] On System Identification Based on Dynamic Mode Decomposition with Control for Model Predictive Control
Sekiya Futamura (Niigata grad school), Shogo Muramatsu (Niigata Univ)
pp. 281 - 286

SIP2024-158
[Special Invited Talk] Spatial Audio Intelligence: From Representation to Understanding and Control of Auditory Environments
Woon-Seng Gan (NTU Singapore)
pp. 287 - 288

SIP2024-159
CLaSP: Multimodal Foundation Model Using Time Series Signal Data and Natural Language
Aoi Ito (Hitachi Ltd./Hosei Univ.), Kota Dohi, Yohei Kawaguchi (Hitachi Ltd.)
pp. 289 - 294

SIP2024-160
Domain-Independent Automatic Generation of Descriptive Texts for Time-Series Data
Kota Dohi (Hitachi), Aoi Ito (Hitachi/Hosei), Harsh Purohit, Tomoya Nishida, Takashi Endo, Yohei Kawaguchi (Hitachi)
pp. 295 - 300

SIP2024-161
Riverbed Estimation using Locally-Structured Unitary Network with Multiresolution Representation
Seiyu Hitomi, Godage Yasas, Hiroyasu Yasuda, Kiyoshi Hayasaka, Shogo Muramatsu (Niigata Univ.)
pp. 301 - 306

SIP2024-162
Online Short-term Prediction of Riverbed Evolution Using Extended Dynamic Mode Decomposition
Reiya Asuke, Masahiro Yukawa (Keio Univ.), Shogo Muramatsu, Daichi Moteki, Hiroyasu Yasuda (Niigata Univ.)
pp. 307 - 312

SIP2024-163
[Poster Presentation] Improving Conv-TasNet for Multi-Channel Speech Enhancement and Examination of Microphone Placement
Taisuke Morikawa, Akitoshi Kataoka (Grad. Sch., Ryukoku Univ.)
pp. 313 - 318

SIP2024-164
[Poster Presentation] An Analysis of Speaker Representation for Target-Speaker Speech Processing
Takanori Ashihara, Takafumi Moriya, Shota Horiguchi (NTT), Junyi Peng (BUT), Tsubasa Ochiai, Marc Delcroix, Kohei Matsuura, Hiroshi Sato (NTT)
pp. 319 - 324

SIP2024-165
[Poster Presentation] Speech spoofing detection using deep learning model with multiple acoustic features
Haruto Namba, Sayaka Shiota (TMU)
pp. 325 - 328

SIP2024-166
[Poster Presentation] Necessity of Voice Sample Selection in Qualification Tests for Crowdsourced Subjective Audio Quality Evaluation
Takuma Yabe, Moe Yaegashi, Teppei Nakano, Tetsuji Ogawa (Waseda Univ.)
pp. 329 - 334

SIP2024-167
[Poster Presentation] JIS: Japanese Speech Corpus of Idol Speakers with Various Speaking Styles
Yuto Kondo, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko (NTT)
pp. 335 - 340

SIP2024-168
(See Japanese page.)
pp. 341 - 344

SIP2024-169
Performance Evaluation of Data-driven Water Level Distribution Prediction for Integrated River Control
Hiromu Kanauchi, Ryuto Ito, Hiroyasu Yasuda (Niigata Univ.), Masaaki Nagahara (Hiroshima Univ.), Shogo Muramatsu (Niigata Univ.)
pp. 345 - 350

SIP2024-170
Estimation of Riverbed Undulation using DMDc for Active River Channel Control with Groynes and Its Evaluation
Chen Zhang, Hiroyasu Yasuda, Kiyoshi Hayasaka, Shogo Muramatsu (Niigata Univ.)
pp. 351 - 356

SIP2024-171
Clustering for time-varying graphs with varying number of nodes
Tomoya Akabayashi (Osaka Univ.), Hayate Kojima (TUAT), Junya Hara, Hiroshi Higashi, Yuichi Tanaka (Osaka Univ.)
pp. 357 - 362

SIP2024-172
Generalized Graph Signal Sampling with Pre-selection of Critical Vertices
Keitaro Yamashita, Kazuki Naganuma, Shunsuke Ono (Science Tokyo)
pp. 363 - 368

SIP2024-173
[Poster Presentation] Construction of a ASR model based on self-supervised learning using intermediate layer outputs
Keigo Hojo, Yukoh Wakabayashi (TUT), Kengo Ohta (NITAC), Atsunori Ogawa (NTT), Norihide Kitaoka (TUT)
pp. 369 - 374

SIP2024-174
[Poster Presentation] Improvement and Evaluation of End of Utterance Time Estimation Method for Spoken Dialog Systems
Takanori Kanai, Yukoh Wakabayashi (TUT), Ryota Nishimura (Tokushima Univ.), Norihide Kitaoka (TUT)
pp. 375 - 380

SIP2024-175
[Poster Presentation] Improvement of the GESI for Predicting Speech Intelligibility in Older Adults
Ayako Yamamoto, Fuki Miyazaki, Toshio Irino (Wakayama Univ.)
pp. 381 - 386

SIP2024-176
[Poster Presentation] Sammo: Incorporating MAMBA-2 into Modern Streaming Encoders for Japanese ASR
Wen Shen Teo, Yasuhiro Minami (UEC)
pp. 387 - 390

SIP2024-177
[Poster Presentation] Improvement of Speech Recognition Performance for Elderly Speech by Alternating Learning of Acoustic and Linguistic information
Kaito Takahashi, Yukoh Wakabayashi (TUT), Kengo Ohta (NIT, Anan College), Norihide Kitaoka (TUT)
pp. 391 - 396

SIP2024-178
[Poster Presentation] Source Separation Based on Regularization Using Back-Projected Demixing Vectors
Kukuru Koiso, Taishi Nakashima, Nobutaka Ono (TMU)
pp. 397 - 402

SIP2024-179
[Poster Presentation] Real-Time Blind Source Separation for Head-Mounted Microphone Array Using Own Voice Selection Based on Relative Transfer Function
Kyoka Kazama, Taishi Nakashima, Nobutaka Ono (TMU)
pp. 403 - 408

SIP2024-180
[Poster Presentation] Source-specific forgetting factor in multiplicative update online AuxIVA.
Kaito Masuko, Taishi Nakashima, Nobutaka Ono (Tokyo Metropolitan Univ.)
pp. 409 - 414

SIP2024-181
[Poster Presentation] Noise Self-Supervised Rank-Constrained Spatial Covariance Matrix Estimation Using Independent Deeply Learned Matrix Analysis for Real-Time Multichannel Speech Extraction in Diffuse Noise Environment
Yuki Nakanishi, Yuto Ishikawa, Norihiro Takamune, Hiroshi Saruwatari (The Univ. of Tokyo)
pp. 415 - 422

SIP2024-182
[Poster Presentation] Two-Stage Processing of Blind Source Separation and DNN-based Speech Enhancement for In-Car Speech Recognition
Yutsuki Takeuchi, Taishi Nakashima, Nobutaka Ono (Tokyo Metropolitan Univ.), Takashi Takazawa, Shuhei Shimanoe, Yoshinori Tsuchiya (MIRISE Technologies)
pp. 423 - 428

SIP2024-183
[Poster Presentation] Speech Synthesis from Electrocorticogram During Imagined Speech Using a Transformer-Based Decoder
Shuji Komeiji, Kai Shigemi (TUAT), Takumi Mitsuhashi, Yasushi Iimura, Hiroharu Suzuki, Hidenori Sugano (Juntendou Univ.), Koichi Shinoda (Science Tokyo), Kohei Yatabe, Toshihisa Tanaka (TUAT)
pp. 429 - 434

SIP2024-184
[Poster Presentation] Control of 3D Physical Model of Movable Artificial Variable Width Channel with Reinforcement Learning -- For River Digital Twin --
Ryusei Aoki, Sisaykeo Phonepaserth, Shogo Muramatsu (Niigata Univ.)
pp. 435 - 440

SIP2024-185
[Poster Presentation] Fundamental considerations for dynamics modeling with Locally Structured Unitary Network
Motoyasu Suzuki, Yasas Godage, Shogo Muramatsu (Nigata Univ.)
pp. 441 - 446

SIP2024-186
[Poster Presentation] A Study of Constraints on Directivity Design Method for Improving Suppression Performance
Miryu Goino, Kenji Suyama (Tokyo Denki Univ.)
pp. 447 - 452

SIP2024-187
[Poster Presentation] A dynamic data augmentation method using diffusion models for classification of intensive care EEG
Takuma Bingo, Hajime Yano, Taichiro Ashizaki, Kazuma Koda, Masaya Togo (Kobe Univ.), Riki Matsumoto (Kobe Univ./Kyoto Univ.), Ryoichi Takashima, Tetsuya Takiguchi (Kobe Univ.)
pp. 453 - 458

SIP2024-188
[Poster Presentation] Individual differences in interoception affects brain activity during music recall
Kazuki Matsunaga, Ingon Chanpornpakdi, Toshihisa Tanaka (TUAT)
pp. 459 - 464

SIP2024-189
[Poster Presentation] Nonnegative Sparse Optimization Using Relu Activation Function and Its Application to Deep Unfolding
Haruki Esaki, Towa Yasui, Seisuke Kyochi (Kogakuin Univ.)
pp. 465 - 470

SIP2024-190
[Poster Presentation] Sparse Modeling for Electroencephalogram-based Sustained Attention Assessment
Masaya Togashi, Ingon Chanpornpakdi, Toshihisa Tanaka (TUAT)
pp. 471 - 476

SIP2024-191
[Poster Presentation] Large-Scale Numerical Simulation of Tsunami-Induced Infrasound Using Spherical Coordinates
Masami Tokuda, Yoshiki Saito, Kan Okubo (TMU)
pp. 477 - 480

SIP2024-192
[Poster Presentation] Study on Acoustic Analysis of Microspeakers Based on Electromagnetic-Structural-Acoustic Coupling
Kakeru Yamaguchi, Shota Toyooka (Kansai Univ.), Kenta Iwai (Ritsumeikan Univ.), Shunsuke Kita (ORIST), Yoshinobu Kajikawa (Kansai Univ.)
pp. 481 - 485

SIP2024-193
[Poster Presentation] Acoustic Vibration Analysis of Distributed Mode Loudspeaker (DML) Using Pattern Structures
Yuito Kimura, Kan Okubo (Tokyo Metropolitan Univ.)
pp. 486 - 490

Note: Each article is a technical report without peer review, and its polished version will be published elsewhere.

The Institute of Electronics, Information and Communication Engineers (IEICE), Japan

IEICE Technical Report

Volume 124, Number 390

Signal Processing

Table of contents