音声言語処理に関する研究文献

まえがき

今回は、音声合成による音声認識のなりすましに対するモデル作成に使用するデータセット J-SpAWについて、今後使用するにあたって調べた。
その際に使用した文献はJ-SpAW: 話者照合となりすまし音声検出のための日本語音声コーパスである。

データセットの概要

J-SpAWはなりすまし音声データを収録した、研究目的で利用可能な無料の音声コーパスである。
J-SpAWは以下の3種類の音声データを収録している。

  • 実発話音声: 男性21名、女性19名の話者から収録された日本語音声データ
  • なりすまし音声: 実発話の音声を基に、音声合成技術で生成された音声データ
  • 収録なりすまし音声: 合成音声を実際の使用環境を模した様々なノイズが乗った音声データ

なりすまし音声には、収録環境が4種類、再生機器が4種類に分かれて想定された録音データがある。

話者照合評価実験

J-SpAWとVoxCelebとの比較

事前学習モデルにおける話者照合をした際に、J-SpAWのEERは十分に低い値であった。しかしながら、VoxCelebに比べるとEERが高い傾向にあった。
これは、J-SpAWが録音環境による雑音を意図的に大きくしているため、EERに影響があったと考えられる。 一方、多言語のVoxCelebに対する言語の違いは余り影響がないと考えられる。

なりすまし音声検出評価実験

なりすまし音声は、TTSとVALL-E Xによる合成音声手法を用いて生成されている。
TTSの合成音声は、人間が聞いても不自然さが目立つため、比較的なりすましを検出しやすい。一方、VALL-E Xの合成音声は、自然さが高く、なりすまし検出が難しい傾向にある。
また、ASVspoofというなりすまし音声検出のためのデータセットと比較して、J-SpAWはよりなりすまし検出が難しい傾向にある。

収録なりすまし音声検出評価実験

収録なりすまし音声のEERは様々なモデルにおいても高い傾向にあった。周囲の雑音の有無によって10ポイントほどの違いがあったモデルもあったが、いずれにしても高い傾向にあった。一番、EERが高い収録状況は、周囲で音楽がなっている場合であった。

3. 実験結果

以上3つの実験結果から、J-SpAWは話者照合、なりすまし音声検出、収録なりすまし音声検出のいずれにおいても、既存のデータセットよりも難易度が高いことが示された。

参考文献と関連リンク