paper_readings
paper_readings copied to clipboard
Transfer learning for music classification and regression tasks
単一の学習済みモデルで音楽情報処理の複数の問題を解けるモデルを提案
論文本体・著者
- https://arxiv.org/abs/1703.09179
- Keunwoo Choi, György Fazekas, Mark Sandler, Kyunghyun Cho
解きたい問題
- 音楽情報処理の基礎ネットワーク(VGG的なもの)を作りたい
- 転移学習に使えるもの
新規性
- こんなシンプルなネットワークでも既存のMFCC特徴より良いパフォーマンスを示す特徴が構成できる
実装
- メルスペクトログラムをCNNかけた後に各層をaverage pooling(!)
-
- CNNは全部3x3
-
実験・議論
- MFCC系特徴と比較
- (mean, avg) x (raw, Δ, ΔΔ) x MFCC
-
- MFCCよりは良く、タスクスペシフィックなSoTAに近い性能も出る
- ちなみに最終層の学習はSVM(linear or rbf)
読んだ中での不明点
- 3x3のconvのavgだと低周波と高周波同じに扱う気がするけど。。。まぁspectorgramにSIFT使うという研究もあるからいいのかしら