IEICE Technical Report

Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380

Speech

Workshop Date : 2016-12-20 - 2016-12-21 / Issue Date : 2016-12-13

SP2016-50
Hard-Attentional Neural Network Models for Emphasis Speech Translation
Quoc Truong Do, Sakriani Sakti, Graham Neubig, Satoshi Nakamura (NAIST)
pp. 7 - 8

SP2016-51
Constructing a Japanese multimodal corpus from emotional monologues and dialogues
Nurul Lubis (NAIST), Randy Gomez (HRI), Sakriani Sakti (NAIST), Keisuke Nakamura (HRI), Koichiro Yoshino, Satoshi Nakamura (NAIST), Kazuhiro Nakadai (HRI)
pp. 9 - 10

SP2016-52
Speaker Recognition Based on Features through 1-Dimensional Convolutional Neural Network
Shohei Sonoda, Yufu Kasahara, Masato Inoue (Waseda Univ)
pp. 17 - 21

SP2016-53
Study on i-vector based speaker verification using rank for short utterances
Misaki Tsujikawa (Panasonic/Sokendai), Tsuyoki Nishikawa (Panasonic), Tomoko Matsui (ISM)
pp. 23 - 26

SP2016-54
[Poster Presentation] Improvement of accent sandhi rules based on accent dictionary for Japanese text-to-speech systems
Hiroto Aoyama, Takashi Nose, Akinori Ito (Tohoku Univ.)
pp. 31 - 36

SP2016-55
[Poster Presentation] F0 control by modeling differential features in DNN-based speech synthesis
Shuhei Yamada, Takashi Nose, Akinori Ito (Tohoku Univ.)
pp. 37 - 42

SP2016-56
[Poster Presentation] Fast algorithm for statistical phrase/accent command estimation based on generative model incorporating spectral features
Ryotaro Sato (The Univ. of Tokyo), Hirokazu Kameoka, Kunio Kashino (NTT)
pp. 43 - 48

SP2016-57
[Poster Presentation] Development of the Julius-compatible interface for the speech recognition engine of Kaldi toolkit
Yusuke Yamada, Takashi Nose, Yuya Chiba, Akinori Ito (Tohoku Univ.)
pp. 49 - 51

SP2016-58
[Poster Presentation] Deep Neural Network Using Fundamental Frequency For Noise Robust Speaker Recognition
Yoshihiro Suzuki, Yosuke Sugiura, Tetsuya Shimamura (Saitama Univ.)
pp. 53 - 56

SP2016-59
[Poster Presentation] Quantization Noise Reduction of Speech by Using Denoising Auto-encoder
Shohei Oouchi, Kazunori Mano (SIT)
pp. 57 - 58

SP2016-60
Remote Sensing Applied to the Input Interface of Spoken Dialogue System
Makoto Koike (MK Microwave Researh)
pp. 59 - 64

SP2016-61
Generative Adversarial Network-based Postfiltering for Statistical Parametric Speech Synthesis
Takuhiro Kaneko, Hirokazu Kameoka, Nobukatsu Hojo, Yusuke Ijima, Kaoru Hiramatsu, Kunio Kashino (NTT)
pp. 89 - 94

SP2016-62
Proposal of a robust and high-performance F0 estimator and its evaluation
Masanori Morise (Univ. of Yamanashi)
pp. 107 - 112

SP2016-63
Deep Learning-based ASR using Cochleogram and Spectrogram Features Combination
Andros Tjandra, Sakriani Sakti (NAIST), Mirna Adriani (UI), Satoshi Nakamura (NAIST)
pp. 113 - 114

SP2016-64
[Invited Talk] Towards Fusion of Speech and Natural Language Processing Research -- Past and Future of Speech Translation Research --
Satoshi Nakamura (NAIST)
pp. 121 - 122

Note: Each article is a technical report without peer review, and its polished version will be published elsewhere.

The Institute of Electronics, Information and Communication Engineers (IEICE), Japan