Kazuhiro KOBAYASHI

Results 24 comments of Kazuhiro KOBAYASHI

このレポジトリで開発しはじめた頃から考えていたのは,pythonとVCに初めて触れたB4の学生くらいが研究の事始めとして使えるレポジトリになれば良いと思ってました. 声質変換は,"特徴抽出->アライメント->学習->変換->合成"とざっくりみると5つの要素からなっていて,これらの一連全てが動くコードをターゲットとする人たちに提供し,その一部を改変してもらう(主に,学習と変換)事で,研究をスタートさせれば良いかなと思っています.あと他には,聴覚系とかの音声分野に関連する人たちにサクッと使って貰えれば良いと考えています. low-level,つまり,最大限機能を分離したインターフェースを提供する事は,上の4つをより細かく分離していく事に相当すると思うのですが,low-levelな機能をガリガリ自前で実装して追加していく能力はないので,ライブラリとして充実したものにはならない様な気がします. それよりも,sprocket内でフワっと呼ぶと使えるインターフェースがあれば良いかなと思います. 音声波形->[特徴抽出機]->音響特徴量 が出て来るインターフェースがあって,パラメータを変えると特徴量の種類が変わるものや, - 特徴量群(特徴量ベクトルのリスト)->[アライメント]->jnt - jnt -> [GMMTrain] -> GMMparams - x, GMMparams -> [GMMconvert] -> y - F0, y_mcep, y_bap -> [Synthesizer] -> y_wav くらいで動くのが良いと思います.我々は,[]の機能をsprocketで提供すれば良いと考えています....

この前,電話MTをした上で決まった事から抜粋してメモしておきます. 本格的な部分ちすては,再現性全振りで公開が目的.その後適宜修正を入れて更新していく. #### TODO: - Shifterの統合 - ドキュメントの整備 - exampleをマージしてから - pyworldの導入 - 名前が入るのはおっけ.

B4に対する教育目的なコードを提供する方針というのは,とても良くて,jupyter notebookなどで処理内容を追いつつ,sprocketのライブラリを理解出来る手段を作れればと考えています.

vcc2018 has been done by #16.

Please tell me more information - OS - python version - log

makefileはsphinxによる自動生成です.

Confirmed converted voice for the vcc2018 example.

なお,差分変換(F0)の実装,リファクタリングandテストコードの作成が優先すべき事項.