machinelearning icon indicating copy to clipboard operation
machinelearning copied to clipboard

My blogs and code for machine learning. http://cnblogs.com/pinard

Results 16 machinelearning issues
Sort by recently updated
recently updated
newest added

>>> print (docres) [[0.00896713 0.99103287] [0.98510899 0.01489101] [0.98466115 0.01533885]] 我就是用你的代码跑的,得到这样的结果。。。 请问有什么我误解的吗? 我唯二的改变是拿走了 document_decode = document.decode('GBK')和# result = result.encode('utf-8')、 但是我在with open里面加了encoding="utf8" 谢谢。

- Changed `sklearn.cross_validation` (depreciated) to `sklearn.model_selection` for importing `train_test_split` - Extracted data from CCPP.zip and extracted to folder CCPP, and added corresponding data path for importing dataframe

写的非常棒,博主很厉害,卷积网络的反向传播的介绍主要是参考哪个资料呢,您给出的几个参考资料和您的叙述有比较大的差距,我想看看原始资料的叙述,谢谢。如果时间太长已经不记得了那就算了,我自己尝试手推推,因为想实现一个卷积网络反向传播,深入理解一下数学运算和原理。

在您的博客中读到actor的损失函数如下。 ![QQ20210325-0](https://user-images.githubusercontent.com/63529290/112450541-78b68780-8d8f-11eb-9b57-566656d841c6.png) 我的理解是,对那个目标函数的梯度做积分就是下面那个式子(只不过没有负号),然后这个目标函数加个负号就可以用来表示损失函数,不知这样理解是否正确? 还有就是,我的actor网络是输入状态s,输出一个连续的动作值a,那么对应您这个公式是否就是直接把对应S和A的crtic网络生成的Q值作为损失函数计算呢?

强化学习第一篇,第218行,更新estimations时,为什么要过滤掉探索动作的收益,这样的话探索率epsilon还有意义吗?

DDPG中的损失函数是不是和原文中不一致?

https://github.com/ljpzzz/machinelearning/blob/master/reinforcement-learning/policy_gradient.py 直接复制运行 episode: 0 Evaluation Average Reward: 15.0 episode: 100 Evaluation Average Reward: 10.2 episode: 200 Evaluation Average Reward: 9.2 episode: 300 Evaluation Average Reward: 9.3 episode: 400 Evaluation Average...

`import tensorflow as tf import numpy as np import gym import random from collections import deque from keras.utils.np_utils import to_categorical import tensorflow.keras.backend as K class QNetwork(tf.keras.Model): def __init__(self): super().__init__() self.dense1=tf.keras.layers.Dense(24,activation='relu')...