IEICE Technical Report

Online edition: ISSN 2432-6380

Speech

Workshop Date : 2022-06-17 - 2022-06-18 / Issue Date : 2022-06-10

SP2022-1
[Invited Talk] Hearing and Vocalizations in Songbirds
Kazuo Okanoya (Teikyo U)
pp. 1 - 2

SP2022-2
Issues emerged from implementation of GUIs for WORLD vocoder
Hideki Kawahara (Wakayama Univ.), Masanori Morise (Meiji Umiv.)
pp. 3 - 6

SP2022-3
Study and Comparison of Direction Estimation Methods for Instrumental Sound Sources
Kaho Yamamoto, Akio Ogihara (Kindai Univ.), Harumi Murata (Chukyo Univ.)
pp. 7 - 9

SP2022-4
A Study of Speech Recognition Result Correction for Speech Translation Using BERT
Tadashi Ogura, Masakiyo Fujimoto, Peng Shen, Xugang Lu, Hisashi Kawai (NICT)
pp. 10 - 13

SP2022-5
Characterization of Audio-Vocal Mirror Neurons in The Songbird Basal Ganglia
Yuka Suzuki (The Univ. of Tokyo), Shin Yanagihara, Kazuo Okanoya (Teikyo Univ.)
pp. 14 - 17

SP2022-6
(See Japanese page.)
pp. 18 - 23

SP2022-7
Effects of sequential grouping on rhythm perception
Jun Nitta, Sotaro Kondoh, Ryosuke O. Tachibana (UT), Kazuo Okanoya (Teikyo Univ.)
pp. 24 - 25

SP2022-8
Blind Source Separation based on Independent Low-Rank Matrix Analysis using Restricted Boltzmann Machines
Shotaro Furuta, Takuya Kishida, Toru Nakashika (UEC)
pp. 26 - 29

SP2022-9
Examination of "sasae-naosu" technique in opera singing using real-time MRI
Natsuki Toda, Hironori Takemoto (CIT), Jun Takahashi (OUA), Seiji Adachi (TGU)
pp. 30 - 34

SP2022-10
Neural beamformer with automatic detection of notable sounds for acoustic scene classification
Sota Ichikawa, Takeshi Yamada (Univ. of Tsukuba), Shoji Makino (Waseda Univ./Univ. of Tsukuba)
pp. 35 - 40

SP2022-11
Representation and analytical normalization for vocal-tract-length transformation by group theory
Atsushi Miyashita, Tomoki Toda (Nagoya Univ)
pp. 41 - 46

SP2022-12
Conditions for octave equivalence : based on verification in rat.
Riseru Koshiishi (Tokyo Univ.), Kazuo Okanoya (Teikyo Univ.)
pp. 47 - 48

SP2022-13
(See Japanese page.)
pp. 49 - 54

SP2022-14
Study of End-to-End Text-to-Speech that can seamlessly control speaker's individuality by Manipulating Speaker features
Naoki Aotani, Sunao Hara, Msanobu Abe (Okayama Univ)
pp. 55 - 60

SP2022-15
[Invited Talk] Crazy vocoder is unbreakable -- But let's talk about an informal vision of the future --
Masanori Morise (Meiji Univ.)
pp. 61 - 66

SP2022-16
[Poster Presentation] Recording of children's speech and lip movements in the Corona disaster
Tatsuya Kitamura (Konan Univ.), Ayako Shirose (Tokyo Gakugei Univ.)
pp. 67 - 70

SP2022-17
Speech intelligibility prediction of simulated hearing loss sounds using the Gammachirp Envelope Similarity Index (GESI) -- Subjective data from laboratory and crowdsourced remote experiments --
Toshio Irino, Honoka Tamaru, Ayako Yamamoto (Wakayama Univ.)
pp. 71 - 76

SP2022-18
Anomalous sound detection using multi-class classifier and reconstructor of its intermediate layer output
Keita Matsumoto, Takeshi Yamada (Univ. of Tsukuba), Shoji Makino (Waseda Univ./Univ. of Tsukuba)
pp. 77 - 81

SP2022-19
[Poster Presentation] Proposal of Speech Content Conversion and the Initial Trial: Conversion of Linguistic Information Depending on Situations
Kohei Takita, Saizo Aoyagi, Tatsunori Hirai (Komazawa Univ.)
pp. 82 - 87

SP2022-20
[Poster Presentation] Subjective intensity of musical beats: a psychophysical quantification
Sotaro Kondoh (UTokyo), Kazuo Okanoya (Teikyo Univ. UTokyo), Ryosuke O. Tachibana (UTokyo)
pp. 88 - 89

SP2022-21
Improved speech analysis using F0-adaptive lag window
Michiki Koshimori, Shigeki Sagayama, Takuya Kishida, Toru Nakashika (UEC)
pp. 90 - 93

SP2022-22
[Poster Presentation] The current situation and problems of comics transliteration from the production site
Sumire Mori (Seika Univ.)
pp. 94 - 99

SP2022-23
VAE-VC based on cross-entropy error minimization of LSP frequency intervals
Yoshihiro Hiramoto, Shigeki Sagayama, Takuya Kishida, Toru Nakashika (UEC)
pp. 100 - 103

SP2022-24
[Poster Presentation] Worker Filtering Criteria for Subjective Evaluation of Synthesized Voice Sound Quality Using Crowdsourcing
Moe Yaegashi (Waseda Univ.), Susumu Saito, Teppei Nakano (Waseda Univ./ifLab.), Tetsuji Ogawa (Waseda Univ.)
pp. 104 - 109

SP2022-25
Unsupervised Training of Sequential Neural Beamformer Using Blindly-separated and Non-separated Signals
Kohei Saijo, Tetsuji Ogawa (Waseda Univ.)
pp. 110 - 115

Note: Each article is a technical report without peer review, and its polished version will be published elsewhere.

The Institute of Electronics, Information and Communication Engineers (IEICE), Japan