paper_readings icon indicating copy to clipboard operation
paper_readings copied to clipboard

Exploring Data Augmentation for Improved Singing Voice Detection with Neural Networks

Open kogaki opened this issue 5 years ago • 0 comments

singing voice detectionタスクにおいて、様々な入力音声のDataAugmentationを試した報告

論文本体・著者

  • Jan Schlüter, Thomas Grill
  • ISMIR 2015
  • http://www.ofai.at/~jan.schlueter/pubs/2015_ismir.pdf

解きたい問題

  • 音声データから、ボーカル歌唱部分をアノテーションする問題(singing voice detection)
    • 入力は対数スペクトログラム、出力は各時間ごとにそこが歌唱音声or notの2値

新規性

  • いろんなDataAugmentationを試した。最終的にいろいろなDAを混ぜることでSoTAを達成

実装

image
論文 Fig. 1 より
  • Dropout
  • スペクトログラムにgaussian noise付与
  • Pitch shift
  • TIme stretch
  • Loudness変動
  • 周波数領域にフィルタ付与
    • 対数正規分布のフィルタで、μとσをランダムにしてる

実験・議論

image
論文 Fig. 2 より。左右はデータセット違い
  • Dropoutやgaussian noise付加はエラー率を大きくしてしまう。

  • Pitch shiftが効く

    • [感想] ただし歌唱部認識という問題特有かも。。
  • mixingはうまく行かなかった

    • ノイズに強くなってほしかったんだが、単に問題を難しくしてしまったようである
  • test-timeにもpitch shiftを行って、その結果をaverageすると性能が上がった

  • 最終的にpitch shift +-30%範囲、time stretch +-30%範囲、frequency filter +-10%を行ったもの(combined)が最も性能向上した

  • さらに、test-timeにもpitch shift augmentationをして、その結果を平均取ることで性能向上した

読んだ中での不明点などの感想

  • やってみた、感は否めないけど参考になる論文。実はaugmentation前のbaselineが弱いのでSoTAと言い切るには厳しいスコアではある

関連論文

kogaki avatar Mar 29 '19 07:03 kogaki