tensorflow-tutorial-samples
tensorflow-tutorial-samples copied to clipboard
关于choose_action
您好,请教下在for i in range(episodes): 下面,也就是第52行,model 还没开始train怎么去做choose_action里的predict?
运行了300的多个周期依然没有收敛迹象,是不是memory有问题。。。
您好,请教下在for i in range(episodes): 下面,也就是第52行,model 还没开始train怎么去做choose_action里的predict?
還沒train的情況下 系統默認 每一種 action 機率基本相同,所以一開始action 就是隨機的
运行了300的多个周期依然没有收敛迹象,是不是memory有问题。。。
運氣問題,起始點不好就跑到local minum,多重跑幾次程式碼就有機會看到收斂
想請問你的train 為什麼模型 只訓練 當次 episode ,過去的回合不訓練??
比較大的問題是不是,model 在 train 的時候程式碼只用單次遊戲的資料進行訓練,並沒有把過去玩的資料一起納入訓練??