paper_readings
paper_readings copied to clipboard
Exploring Data Augmentation for Improved Singing Voice Detection with Neural Networks
singing voice detectionタスクにおいて、様々な入力音声のDataAugmentationを試した報告
論文本体・著者
- Jan Schlüter, Thomas Grill
- ISMIR 2015
- http://www.ofai.at/~jan.schlueter/pubs/2015_ismir.pdf
解きたい問題
- 音声データから、ボーカル歌唱部分をアノテーションする問題(singing voice detection)
- 入力は対数スペクトログラム、出力は各時間ごとにそこが歌唱音声or notの2値
新規性
- いろんなDataAugmentationを試した。最終的にいろいろなDAを混ぜることでSoTAを達成
実装
![]() |
---|
論文 Fig. 1 より |
- Dropout
- スペクトログラムにgaussian noise付与
- Pitch shift
- TIme stretch
- Loudness変動
- 周波数領域にフィルタ付与
- 対数正規分布のフィルタで、μとσをランダムにしてる
実験・議論
![]() |
---|
論文 Fig. 2 より。左右はデータセット違い |
-
Dropoutやgaussian noise付加はエラー率を大きくしてしまう。
-
Pitch shiftが効く
- [感想] ただし歌唱部認識という問題特有かも。。
-
mixingはうまく行かなかった
- ノイズに強くなってほしかったんだが、単に問題を難しくしてしまったようである
-
test-timeにもpitch shiftを行って、その結果をaverageすると性能が上がった
-
最終的にpitch shift +-30%範囲、time stretch +-30%範囲、frequency filter +-10%を行ったもの(combined)が最も性能向上した
-
さらに、test-timeにもpitch shift augmentationをして、その結果を平均取ることで性能向上した
読んだ中での不明点などの感想
- やってみた、感は否めないけど参考になる論文。実はaugmentation前のbaselineが弱いのでSoTAと言い切るには厳しいスコアではある