講演抄録/キーワード |
講演名 |
2023-06-23 13:50
[ポスター講演]歌詞と歌唱音声のアライメント崩れに基づく替え歌検知 ○有賀智輝・樋口陽祐(早大)・菅野光則・執行里恵・水口天都・岡本直紀(第一興商)・小川哲司(早大) SP2023-10 |
抄録 |
(和) |
替え歌を含むカラオケ歌唱音声に対して,正解歌詞との強制アライメントを行い,アライメントの崩れ具合を評価することで替え歌を検知することを試みた.替え歌の検知は,歌唱音声がインターネット上で配信される際における著作権侵害の有無の確認や,カラオケの採点アルゴリズムの精度向上に貢献する.歌唱音声には正解の歌詞が必ず存在するため,音響モデルを用いた強制アライメントを適用することができる.しかし,歌詞が正しく歌われていない場合や,替え歌が含まれている場合には音響特徴とのミスマッチによってアライメントがうまく取れず,崩れる可能性がある.本研究の目的は,このアライメントの崩れを利用して替え歌を検知するシステムを構築することである.そのために,推定されたアライメントの崩れ具合を評価するために適切な尺度を調査する.このとき,リズムの取り方の違いなど,歌唱者の個人性に対して頑健な評価尺度を設計する.実験では,正確なアライメントの推定を行うために,日本語のカラオケ歌唱データセットを構築し,これを用いて歌唱音声に基づいた音響モデルを構築する.替え歌検知実験の結果,編集距離に基づく提案の評価尺度を用いることで,Area Under the Curve(AUC)で0.963を与える高い検知性能を得られることが明らかとなった. |
(英) |
We propose a parody detection system for karaoke singing by evaluating alignment collapse between lyrics and singing voice. The detection of parodies plays a crucial role in identifying copyright infringements in online karaoke recordings, while also enhancing the quality of singing evaluation algorithms. Considering that, for a particular song, the ground-truth transcriptions (i.e., lyrics) remain constant, we can employ an acoustic model to achieve forced alignment between lyrics and the corresponding singing voice. However, when a singing voice is performed with incorrect lyrics or parodies, the alignment estimation may become challenging due to discrepancies in the acoustic features. Our objective is to identify the potential alignment collapse for detecting parodies in singing voice. To this end, we examine various metrics to assess the degree of collapse in the estimated alignments. Furthermore, we develop metrics that are robust against variations among singers, such as modifications in rhythm arrangements. In the course of our experiments, we construct a Japanese singing voice dataset to train an acoustic model specific to the singing domain, which is crucial for estimating accurate alignments. The results suggest that our proposed system, which uses an edit-distance-based metric, is highly successful in detecting parodies, achieving an area under the curve (AUC) value of 0.963. |
キーワード |
(和) |
替え歌検知 / 歌唱音声 / 強制アライメント / カラオケ / / / / |
(英) |
Parody detection / singing voice / forced alignment / karaoke / / / / |
文献情報 |
信学技報, vol. 123, no. 88, SP2023-10, pp. 48-53, 2023年6月. |
資料番号 |
SP2023-10 |
発行日 |
2023-06-16 (SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2023-10 |
|