paper_readings icon indicating copy to clipboard operation
paper_readings copied to clipboard

Transfer learning for music classification and regression tasks

Open kogaki opened this issue 7 years ago • 0 comments

単一の学習済みモデルで音楽情報処理の複数の問題を解けるモデルを提案

論文本体・著者

  • https://arxiv.org/abs/1703.09179
  • Keunwoo Choi, György Fazekas, Mark Sandler, Kyunghyun Cho

解きたい問題

  • 音楽情報処理の基礎ネットワーク(VGG的なもの)を作りたい
    • 転移学習に使えるもの

新規性

  • こんなシンプルなネットワークでも既存のMFCC特徴より良いパフォーマンスを示す特徴が構成できる

実装

  • メルスペクトログラムをCNNかけた後に各層をaverage pooling(!)
    • image
    • CNNは全部3x3

実験・議論

  • MFCC系特徴と比較
    • (mean, avg) x (raw, Δ, ΔΔ) x MFCC
    • image
    • MFCCよりは良く、タスクスペシフィックなSoTAに近い性能も出る
    • ちなみに最終層の学習はSVM(linear or rbf)

読んだ中での不明点

  • 3x3のconvのavgだと低周波と高周波同じに扱う気がするけど。。。まぁspectorgramにSIFT使うという研究もあるからいいのかしら

関連論文

kogaki avatar Jun 19 '17 06:06 kogaki