講演抄録/キーワード |
講演名 |
2017-03-07 14:00
マルコフ性を明示的に考慮したCTCネットワークの提案 ○河内祐太・浅見太一・山口義和・青野裕司(NTT) IBISML2016-111 |
抄録 |
(和) |
確率モデル不要な真のニューラルend-to-end音声認識実現に対して,音声書き起こし以外の言語リソースを利用できない現状のニューラル音響モデルは問題である.これを解決する,系列分類タスクに対する汎用的なモデルとして,connectionist temporal classification (CTC)をベースとし,出力結果の保持機構と,出力シンボルのbigramを明示的に表現する行列とを持ったモデルを提案する.実験では,出力のbigram性を利用することによって解ける問題を定義し,パラメータの意味づけに成功するとともに,通常のLSTM-CTCに対して精度向上を確認した. |
(英) |
Current neural acoustic models are incapable of utilizing language resources except speech transcriptions. So toward the realization of true neural end-to-end speech recognition, this property is problematic. In this paper, we present a method for general sequence classification task based on connectionist temporal classification with a structure keeping the previously output symbols and a matrix explicitly represents bigram properties. In our experiment, we defined a problem easily solved by using Markov properties of output sequences. Finally we could obtain interpretable neural network parameters and accuracy improvements from the baseline LSTM-CTC model. |
キーワード |
(和) |
系列分類 / 深層学習 / CTC / end-to-end / / / / |
(英) |
temporal classification / deep learning / CTC / end-to-end / / / / |
文献情報 |
信学技報, vol. 116, no. 500, IBISML2016-111, pp. 83-88, 2017年3月. |
資料番号 |
IBISML2016-111 |
発行日 |
2017-02-27 (IBISML) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2016-111 |