講演抄録/キーワード |
講演名 |
2011-05-14 11:40
口唇動作と音声の共起に着目した被写体と話者の不一致検出 ~ ニュース映像への適用と評価 ~ ○熊谷章吾・道満恵介(名大)・高橋友和(岐阜聖徳学園大)・出口大輔・井手一郎・村瀬 洋(名大) MVE2011-12 |
抄録 |
(和) |
ニュース映像中の人物の発言シーンはマルチメディア情報を豊富に含み,資料価値が高い.発言シーンの抽出には顔領域の位置や大きさを利用するアプローチが考えられる.しかし,ナレーションシーンのように被写体と話者が一致していないシーンも存在するため,それだけでは発言シーンを必ずしも抽出できない.そこで我々は,発生する音とそれに伴う口唇動作から得られる複数の音声特徴と画像特徴の相関を利用して被写体と話者の一致・不一致を識別する手法を提案してきた.しかしながら,理想的な環境で撮影した映像に対する評価のみで,実際に放送されるニュース映像に対する評価にとどまっていた.本稿では,理想的な環境で撮影した映像を用いた実験とその結果,および実際に放送されたニュース映像を用いた実験とその結果について報告する.これら2つの実験から,提案手法の有効性および有用性を確認した. |
(英) |
Speech scenes in news videos contain a wealth of multimedia information, and are valuable as archived material. In order to extract speech scenes from news videos, there is an approach that uses the position and size of a face region. However, it is difficult to extract them with only the approach, since news videos contain scenes where the speakers are not the subjects such as in narration scenes. To solve this problem, we have been proposing a method to detect the inconsistency between face and speaker focusing on the co-occurrence of the lip motion and the speech. However, the evaluations for the proposed method were performed in an ideal condition without much noise. In this paper, we report the investigation on the performance of the proposed method not only with videos captured in ideal conditions but also with actual broadcasted news videos. Their results showed the effectiveness and the usefulness of our method. |
キーワード |
(和) |
発言シーン抽出 / 視聴覚統合 / ニュース映像 / 口唇動作特徴 / / / / |
(英) |
speech scene extraction / auditory-visual integration / news video / lip motion feature / / / / |
文献情報 |
信学技報, vol. 111, no. 38, MVE2011-12, pp. 75-80, 2011年5月. |
資料番号 |
MVE2011-12 |
発行日 |
2011-05-06 (MVE) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
MVE2011-12 |