My_NoteBook
My_NoteBook copied to clipboard
強化学習のノートの ToDo リスト
[18/12/23] チェック付き=完了済み
- [ ] 概要の整理
- [x] バックアップ線図を横方向から縦方向へ修正(縦方向のほうが規模の大きい図を書きやすいため)
- [x] Sarsa のバックアップ線図を自作
- [x] Q学習のバックアップ線図を自作
- [x] 状態価値関数、行動価値関数の説明の修正
- [ ] モンテカルロ法の項目で、漸近式表現(α不変MC)での説明も追加
- [ ] TD学習での漸近式を導入するための平均値計算からの例の表現修正 → 他の内容と被らないように修正
- [ ] 参考文献のレビュー整理
- [ ] DQN以降のディープラーニングの構造を持った手法の説明を追加