IEICE Technical Report

Online edition: ISSN 2432-6380

Volume 123, Number 402

Signal Processing

Workshop Date : 2024-02-29 - 2024-03-01 / Issue Date : 2024-02-22

[TOP] | [2020] | [2021] | [2022] | [2023] | [2024] | [2025] | [2026] | [Japanese] / [English]

SIP2023-108
Vocal tract length perturbation-based pseudo-speaker augmentation for automatic speaker verification
Tomoka Wakamatsu, Sayaka Shiota, Hitoshi Kiya (Tokyo Metropolitan Univ.)
pp. 1 - 6

SIP2023-109
Pseudo-speaker augmentation based on vocal tract length perturbation considering speaker variability for speaker verification
Fumika Ono, Tomoka Wakamatsu, Sayaka Shiota (TMU)
pp. 7 - 12

SIP2023-110
Noise-Robust Voice Conversion by Denoising Training Conditioned with Latent Variables of Speech Quality and Recording Environment
Takuto Igarashi, Yuki Saito, Kentaro Seki, Shinnosuke Takamichi (UT), Ryuichi Yamamoto, Kentaro Tachibana (LY), Hiroshi Saruwatari (UT)
pp. 13 - 18

SIP2023-111
Multi-task learning with age information model for highly accurate elderly speech recognition.
Shine Takumi, Kinouchi Takahiro, Wakabayashi Yukoh, Kitaoka Norihide (TUT)
pp. 19 - 24

SIP2023-112
Simultaneous Estimation of Transfer Coefficients and Signals of Sound-to-Light Conversion Device Blinky Under Saturation Using Non-negative Matrix Factorization
Kosuke Nishida, Natsuki Ueno, Nobutaka Ono (TMU), Daichi Kitamura (Kagawa NCT)
pp. 25 - 30

SIP2023-113
Derivation of Direct Update Rule for Back-Projected Separation Matrix
Yui Kuriki, Taishi Nakashima, Nobutaka Ono (TMU)
pp. 31 - 36

SIP2023-114
Analysis of Overlapped Utterances in Everyday Conversation and Source Separation by Online Independent Vector Analysis for Asynchronous Distributed Recordings
Haruki Nammoku, Taishi Nakashima, Kouei Yamaoka, Yukoh Wakabayashi, Nobutaka Ono (TMU)
pp. 37 - 42

SIP2023-115
Accelerating and stabilizing vectorwise coordinate descent for spatially regularized independent low-rank matrix analysis
Yuto Ishikawa, Takuya Okubo, Norihiro Takamune (UTokyo), Tomohiko Nakamura (AIST), Daichi Kitamura (NIT Kagawa), Hiroshi Saruwatari (UTokyo), Yu Takahashi, Kazunobu Kondo (Yamaha)
pp. 43 - 50

SIP2023-116
Evaluation of Effect of Scatterer Shape on Incident Sound Field Estimation Based on Kernel Interpolation
Shihori Kozuka (NTT), Shoichi Koyama (NII), Hiroaki Itou, Noriyoshi Kamado (NTT)
pp. 51 - 56

SIP2023-117
Study on Virtual Sensing Feedback ANC System with Noise Control Filter Selection
Shota Toyooka, Yoshinobu Kajikawa (Kansai Univ.)
pp. 57 - 60

SIP2023-118
(See Japanese page.)
pp. 61 - 64

SIP2023-119
On conditions for stably working filtered-x type active noise control systems
Kensaku Fujii (Kodaway Lab.), Mitsuji Muneyasu (Kansai Univ.), Yoshifumi Chisaki (CIT)
pp. 65 - 72

SIP2023-120
Study of Sound Source Localization for Disaster Survivor Search Using Quadcopters -- An Analysis of Factors Related to MUSIC Algorithm through Environmental Modeling with PyRoomAcoustics --
Masachika Kamada (Waseda Univ.), Junji Yamato (Kogakuin Univ.), Yasuhiro Oikawa, Hiroshi G Okuno, Jun Ohya (Waseda Univ.)
pp. 73 - 78

SIP2023-121
Development of the mental disorder estimation model using voice
Kaho Kato, Akihiko Takashima, Kei Kikuiri, Takeshi Yoshimura (NTT docomo)
pp. 79 - 84

SIP2023-122
Multiple Lag Window Pairs for Estimation of Fundamental Frequency and Periodicity Measure
Michiki Koshimori (UEC), Shigeki Sagayama (UTokyo/UEC), Toru Nakashika (UEC)
pp. 85 - 90

SIP2023-123
A Study on Automatic Performance for Emulating the Playing Style of a Specific Pianist using Feature Extraction with LSTM and Score Analysis
Li Senhao, Matsuno Yutaka (Nihon Univ.)
pp. 91 - 96

SIP2023-124
(See Japanese page.)
pp. 97 - 102

SIP2023-125
(See Japanese page.)
pp. 103 - 108

SIP2023-126
Kernel-Induced Sampling Theorem for A Class of Mapping-Prescribed Reproducing Kernel Hilbert Spaces
Akira Tanaka (Hokkaido Univ.)
pp. 109 - 114

SIP2023-127
An Enhanced Privacy-Preserving Scheme for Federated Learning of Vision Transformer without Model Performance Degradation
Rei Aso, Sayaka Shiota, Hitoshi Kiya (Tokyo Metropolitan Univ.)
pp. 115 - 120

SIP2023-128
Privacy preserving deep unrolling ISTA method for sparse representation
Nichika Yuge, Takayuki Nakachi (Univ. of the Ryukyus.)
pp. 121 - 126

SIP2023-129
Lightweight and Interpretable Deep Learning Model for EEG-Based Sleep Stage Classification
Aozora Ito, Toshihisa Tanaka (TUAT)
pp. 127 - 132

SIP2023-130
Element Selection Based on Classifiability Using Nonconvex Sparse Optimization
Taiga Kawamura, Natsuki Ueno, Nobutaka Ono (TMU)
pp. 133 - 138

SIP2023-131
Cramér-Rao Lower Bound for Parameter Estimation from Observation with Irreversible Saturation Effects
Natsuki Ueno, Hirokazu Kameoka (NTT)
pp. 139 - 144

SIP2023-132
Adaptive subspace clustering for matrix completion
Takuto Wada (Hosei Univ.), Ryohei Sasaki (TUT), Katsumi Konishi (Hosei Univ.)
pp. 145 - 149

SIP2023-133
Byzantine attack detection via similarity of local updates in federated learning
Kenta Ohno, Masao Yamagishi (Hosei Univ.)
pp. 150 - 155

SIP2023-134
Multiple sound source localization system in a rectangular area based on a distributed microphone array network
Toru Takahashi, Kotaro Fukuda, Taiki Kanbayashi, Hitoshi Ogaki (OSU), Ryo Higashigawa (coroutine), Masato Nakayama (OSU)
pp. 156 - 161

SIP2023-135
Comparison of DNN architectures for determined BSS by proximal average of IVA and DNN
Kazuki Matsumoto (Waseda Univ.), Koki Yamada, Kohei Yatabe (TUAT)
pp. 162 - 167

SIP2023-136
Role Selection of Microphone Pairs for Omnidirectional Sound Source Tracking
Haruto Sasaki, Kenji Suyama (Tokyo Denki Univ.)
pp. 168 - 173

SIP2023-137
Residual Noise Reduction Based on Sound Source Signal Independence
Kai Furusawa, Kenji Suyama (Tokyo Denki Univ.)
pp. 174 - 179

SIP2023-138
Effectiveness of Specified Error for Suppression Section in Directivity Design
Tsukasa Hidaka, Kenji Suyama (Tokyo Denki Univ.)
pp. 180 - 184

SIP2023-139
Multiple Sound Source Localization using High Spatial Resolution Microphone Pairs
Tomoya Hori, Kenji Suyama (Tokyo Denki Univ.)
pp. 185 - 189

SIP2023-140
An experimental survey on speaker embedding spaces for controlling speaker identity in speech synthesis system
Wakuto Morita, Daisuke Saito, Nobuaki Minematsu (Univ. of Tokyo)
pp. 190 - 195

SIP2023-141
SELECTING N-LOWEST SCORES FOR TRAINING MOS PREDICTION MODELS
Yuto Kondo, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko (NTT)
pp. 196 - 201

SIP2023-142
Improving training recipe of Remixed2Remixed for speech enhancement
Li Li, Shogo Seki (CyberAgent)
pp. 202 - 207

SIP2023-143
A Study on Environmental Sound Synthesis in the Case of Pausing in Virtual Walking Applications
Hiroshi Nishijima, Wakuto Morita, Daisuke Saito, Nobuaki Minematsu (UTokyo)
pp. 208 - 213

SIP2023-144
Analysis of speech synthesis of text-free audio using a self-supervised learning model -- focusing on multilingual applications --
Joonyong Park, Daisuke Saito, Nobuaki Minematsu (The Univ. of Tokyo)
pp. 214 - 219

SIP2023-145
Multi-Dialect Speech Synthesis with Interpretable Accent latent Variable based on VQ-VAE
Kazuki Yamauchi, Yuki Saito, Hiroshi Saruwatari (UTokyo)
pp. 220 - 225

SIP2023-146
Constructing and Evaluating a Batch Voice Input System for Electronic Medical Records Using Large Language Models
Ryo Maejima, Norihide Kitaoka (TUT)
pp. 226 - 231

SIP2023-147
Domain adaptation of speech recognition model based on multilingual SSL model with only nonparallel corpus.
Takahiro Kinouchi (TUT), Atsunori Ogawa (NTT), Yukoh Wakabayashi (TUT), Kengo Ohta (NITA), Norihide Kitaoka (TUT)
pp. 232 - 237

SIP2023-148
Improving speech recognition system consisting of multiple speech recognition models
Keigo Hojo, Yukoh Wakabayashi (TUT), Kengo Ohta (NITAC), Atsunori Ogawa (NTT), Norihide Kitaoka (TUT)
pp. 238 - 243

SIP2023-149
Evaluation of Automatic Speech Recognition for Deaf and Hard-of-Hearing People by Speaker Adaptation.
Kaito Takahashi, Takahiro Kinouchi, Yukoh Wakabayashi (TUT), Kengo Ohta (NITAC), Akio Kobayashi (Yamato Univ.), Norihide Kitaoka (TUT)
pp. 244 - 249

SIP2023-150
Intermediate speaker speech synthesis between two speakers using x-vector speaker space
Sota Hosoi, Takahiro Kinouchi, Yukoh Wakabayashi, Norihide Kitaoka (TUT)
pp. 250 - 255

SIP2023-151
Speech representation based on VAE assuming gamma distribution for latent variables and observation
Nanako Imaichi, Toru Nakashika (UEC)
pp. 256 - 261

SIP2023-152
An Investigation into Weighting Strategies for Model Averaging in Continual Learning for Automatic Speech Recognition
Kentaro Shinayama, Hiroshi Sato, Tomoharu Iwata, Takeshi Mori, Taichi Asami (NTT)
pp. 262 - 267

SIP2023-153
Substitution of Implicit Linguistic Information in Beam Search Decoding Using CTC-based Speech Recognition Models
Tatsunari Takagi, Yukoh Wakabayashi (TUT), Atsunori Ogawa (NTT), Norihide Kitaoka (TUT)
pp. 268 - 273

SIP2023-154
A study on loom operation analysis using acoustic signals for abnormality detection
Shinji Sako (NITech)
pp. 274 - 276

SIP2023-155
An Investigation on the Speech Recovery from EEG Signals Using Transformer
Tomoaki Mizuno (The Univ. of Electro-Communications), Takuya Kishida (Aichi Shukutoku Univ.), Natsue Yoshimura (Tokyo Tech), Toru Nakashika (The Univ. of Electro-Communications)
pp. 277 - 282

SIP2023-156
modal-to-falsetto singing voice conversion focused on the shape of glottal sound wave and parameter control of the glottal wave
Shota Okada, Yu Kitamura, Daisuke Saito, Nobuaki Minematsu (Tokyo Univ.)
pp. 283 - 288

SIP2023-157
Black-Box Adversarial Attack for Math Formula Recognition Model
Haruto Namura, Masatomo Yoshida (Doshisha Univ.), Nicola Adami (UNIBS), Masahiro Okuda (Doshisha Univ.)
pp. 289 - 293

SIP2023-158
Variable step size of shared error NLMS algorithm for acoustic echo and noise canceller
Kenta Iwai, Takanobu Nishiura (Ritsumeikan Univ.)
pp. 294 - 299

SIP2023-159
EEG during music recall: Time-frequency analysis, event-related potential, and directed connectivity
Mayu Goto, Ingon Chanpornpakdi, Kazuki Matsunaga, Shuma Ito, Toshihisa Tanaka (TUAT)
pp. 300 - 305

SIP2023-160
Decorrelation-based blind speech separation
Shinya Saito, Kunio Oishi (Tokyo University of Tech.)
pp. 306 - 308

SIP2023-161
Cello-like Sound Synthesis from Viola Recordings Using Pitch Shifting and Harmonic Generation
Natsuki Yoshino, Akira Tanaka (Hokudai)
pp. 309 - 314

SIP2023-162
Multiple Pitch Estimation Based on Finite-Order Harmonic Constraint Differential Equation
Kenta Yamada, Yoshiki Masuyama, Kouei Yamaoka, Natsuki Ueno, Nobutaka Ono (Metropolitan Univ.)
pp. 315 - 320

SIP2023-163
Inverse filter design of Shoulder-mounted Wearable Speaker using H-infinity control theory -- Extension and evaluation to MIMO systems --
Kenji Kita (Daido Univ.)
pp. 321 - 326

SIP2023-164
Mixing Method of Remote Choral Sound Source by Component Selection Using Sparse Representation
Haruki Ota, Kota Takahashi (UEC)
pp. 327 - 332

SIP2023-165
[Invited Talk] Getting Started With Environmental Sound Analysis and Synthesis
Keisuke Imoto (Doshisha Univ.)
p. 333

SIP2023-166
Investigation of objective intelligibility metrics based on speech foundation models for Clarity Prediction Challenge 2
Katsuhiko Yamamoto (CyberAgent)
pp. 334 - 339

SIP2023-167
Spatial auditory masking of audio signals with different elevations on the median plane and a sagittal plane
Hiroto Fujishiro, Masayuki Nishiguchi, Kanji Watanabe, Koji Abe (Akita Prefectural Univ.)
pp. 340 - 345

SIP2023-168
Acoustic morphing based on autoencoder for piano scale and reverberation
Yuma Hakoda, Takao Tsuchiya (Doshisha Univ.)
pp. 346 - 351

SIP2023-169
Investigation on factors of beamforming with reduced the number of microphones on sound space synthesis
Ryosuke Oyashiki, Kanji Watanabe, Masayuki Nishiguchi, Koji Abe (Akita Prefectural Univ.)
pp. 352 - 359

SIP2023-170
Perceptible delay of moving sound source signals with different azimuth and bandwidth
Yuuki Saito, Masayuki Nishiguchi, Kanji Watanabe, Koji Abe (Akita Prefectural Univ.)
pp. 360 - 367

SIP2023-171
Creation of representative head-related impulse responses for binaural rendering of audio signals by waveform based acoustic panning
Kazuki Houshito, Masayuki Nishiguchi, Kanji Watanabe, Koji Abe (Akita Prefectural Univ.)
pp. 368 - 375

SIP2023-172
Discrimination of rotation direction of virtual sound source in binaural synthesis using sound source radiation characteristics
Orie Nishiyama (Chiba Institute of Technology), Toshiharu Horiuchi, Shota Okubo (KDDI Research, Inc.), Yoshifumi Chisaki (Chiba Institute of Technology)
pp. 376 - 381

SIP2023-173
Simulation Evaluation of Speech Detection Based on Distributed Sound-to-Light Conversion Device Blinkies
Satoshi Motoyama, Natsuki Ueno, Masahiro Yasuda (TMU), Yuma Kinoshita (Tokai Univ.), Nobutaka Ono (TMU)
pp. 382 - 387

SIP2023-174
Evaluations of Multi-channel Blind Source Separation for Speech Recognition in Car Environments
Yutsuki Takeuchi, Natsuki Ueno, Nobutaka Ono (Tokyo Metropolitan Univ.), Takashi Takazawa, Shuhei Shimanoe, Tomoki Tanemura (MIRISE Technologies)
pp. 388 - 393

SIP2023-175
Large Scale Pre-training and Dynamic Convolution for Image Restoration Under Bad Weather Conditions
Shugo Yamashita, Masaaki Ikehara (Keio Univ.)
pp. 394 - 399

SIP2023-176
Synthesizing perceived melody from stereo electroencephalogram
Yuta Inaba, Yuiko Kumagai, Naoki Yoshimura, Shuji Komeiji (Tokyo Univ. Agri.&Tech.), Takumi Mitsuhashi, Yasushi Iimura, Hiroharu Suzuki, Hidenori Sugano (Juntendo Univ.), Toshihisa Tanaka (Tokyo Univ. Agri.&Tech.)
pp. 400 - 405

SIP2023-177
A Design of Denser-Graph-Frequency Graph Fourier Frames for Undirected Graph Signal Analysis
Kaito Nitani, Seisuke Kyochi (Kogakuin Univ.)
pp. 406 - 410

SIP2023-178
Generating Japanese-accented English voices of 3 types according to the listening proficiency of Japanese ESL learners
Kiyotada Mori, Yasuo Miyoshi, Ryo Okamoto (Kochi Univ.)
pp. 411 - 414

SIP2023-179
Prediction of Voice Processing Intensity Matching the Impression of a Voice Agent
Ren Miyamoto, Wakuto Morita, Daisuke Saito, Nobuaki Minematsu (Tokyo Univ.)
pp. 415 - 420

SIP2023-180
Evaluating speech generation based on objective measures for text generation
Takaaki Saeki (UTokyo), Soumi Maiti (CMU), Shinnosuke Takamichi (UTokyo), Shinji Watanabe (CMU), Hiroshi Saruwatari (UTokyo)
pp. 421 - 426

Note: Each article is a technical report without peer review, and its polished version will be published elsewhere.

The Institute of Electronics, Information and Communication Engineers (IEICE), Japan

IEICE Technical Report

Volume 123, Number 402

Signal Processing

Table of contents