IEICE Technical Report

Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380

Speech

Workshop Date : 2014-12-15 - 2014-12-16 / Issue Date : 2014-12-08

SP2014-106
Recognition and Analysis of Emotion in Indonesian Conversational Speech
Nurul Lubis, Sakriani Sakti, Graham Neubig, Tomoki Toda (NAIST), Dessi Lestari, Ayu Purwarianti (ITB), Satoshi Nakamura (NAIST)
pp. 1 - 6

SP2014-107
Investigation of Deep Neural Network and Cross-adaptation for Voice Activity Detection in Meeting Speech
Akihiro Nakadani (Shizuoka Univ.), Longbiao Wang (Nagaoka Univ. of Tech.), Atsuhiko Kai (Shizuoka Univ.)
pp. 19 - 24

SP2014-108
[Invited Talk] Dialogue state tracking in statistical dialogue management
Kai Yu, Lu Chen (SJTU)
pp. 25 - 29

SP2014-109
[Invited Talk] Statistical approach to flexible speech synthesis -- towards human-like talking machines --
Keiichi Tokuda (NITech/Google)
p. 31

SP2014-110
An experimental study of definitions of reference pronunciation distances and acoustic features used for distance prediction with the aim of pronunciation clustering
Shun Kasahara (Univ. of Tokyo), Tianze Shi (Tsinghua Univ.), Nobuaki Minematsu, Daisuke Saito, Keikichi Hirose (Univ. of Tokyo)
pp. 47 - 52

SP2014-111
Articulatory Controllable Speech Modification using Sequential Inversion and Production Mapping with Gaussian Mixture Models
Patrick Lumban Tobing, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura (NAIST), Ayu Purwarianti (ITB)
pp. 57 - 62

SP2014-112
Prosody Correction Preserving Speaker Individuality in English-Read-By-Japanese Speech Synthesis Based on HMM
Yuji Oshima, Shinnosuke Takamichi, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura (NAIST)
pp. 63 - 68

SP2014-113
Noise robust speech recognition by non-negative matrix factorization using GMM clustering in MFCC domain
Kentaro Fujigaki, Yosuke Kashiwagi, Daisuke Saito, Nobuaki Minematsu, Keikichi Hirose (Univ. of Tokyo)
pp. 69 - 74

SP2014-114
Many-to-one Voice Conversion using Multiple Non-negative Matrix Factorization
Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki (Kobe Univ.)
pp. 75 - 80

SP2014-115
HMM-Based Speech Synthesis System with Prosody Modification Based on Speech Input
Yuri Nishigaki, Shinnosuke Takamichi, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura (NAIST)
pp. 81 - 86

SP2014-116
Multimodal Voice Conversion using Weighted Features in Noisy Environments
Kenta Masaka, Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki (Kobe Univ.)
pp. 87 - 92

SP2014-117
Voice conversion based on deep neural network with multiple output sub-networks
Tetsuya Hashimoto, Yosuke Kashiwagi, Daisuke Saito, Keikichi Hirose, Nobuaki Minematsu (Univ. of Tokyo)
pp. 99 - 104

SP2014-118
Speaker adaptation using speaker-normalized DNN based on speaker codes
Yosuke Kashiwagi, Daisuke Saito, Nobuaki Minematsu, Keikichi Hirose (Univ. of Tokyo)
pp. 105 - 110

SP2014-119
[Poster Presentation] Deep neural network-based feature transformation for reverberant speaker identification
Zhaofeng Zhang, Longbiao Wang (NUT), Atsuhiko Kai (Shizuoka Univ.), Weifeng Li (Tsinghua Univ.), Masahiro Iwahashi (NUT)
pp. 111 - 116

SP2014-120
[Poster Presentation] Accent identification by conbining GMM and DNN under reverberant environment
Ryota Sakagami, Longbiao Wang, Zhang Zhaofeng, Khomdet Phapatanaburi, Masahiro Iwahashi (NUT)
pp. 123 - 128

SP2014-121
[Poster Presentation] speech selection and environmental adaptation for asynchronous speech recording based on deep neural network
Bo Ren, Longbiao Wang (Nagaoka Univ. of Tech.), Atsuhiko Kai (Shizuoka Univ.)
pp. 129 - 134

SP2014-122
STD for SQ using MSRR
Satoshi Oshima, Yoshiaki Itoh (Iwate Prefectural Univ.)
pp. 135 - 140

SP2014-123
A Study on Speaker Recognition Method in Consideration of Speaking Style Differences in Lecture Speech
Kota Nakatsuji (Doshisha Univ.), Masafumi Nishida (Nagoya Univ.), Seiichi Yamamoto (Doshisha Univ.)
pp. 141 - 146

SP2014-124
[Poster Presentation] relationship between speakers' characteristics and the information transmission quality in Dialog
Bohan Chen (Nagoya Univ.), Norihide Kitaoka (Tokushima Univ.), Kazuya Takeda (Nagoya Univ.)
pp. 147 - 152

SP2014-125
[Poster Presentation] Automatic Language Identification Based on Posterior Probability on Articulatory Classes
Takumi Hirata, Kazuyuki Takagi (UEC)
pp. 153 - 157

SP2014-126
[Poster Presentation] Voice Conversion Using Speaker Adapted Restricted Boltzmann Machine
Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki (Kobe Univ.)
pp. 165 - 170

Note: Each article is a technical report without peer review, and its polished version will be published elsewhere.

The Institute of Electronics, Information and Communication Engineers (IEICE), Japan