AInseven

Results 8 issues of AInseven

line170 # 从server拉取最新的梯度 self.client.set_weights(self.server.get_weights()) 拉取的应该时网络参数吧,不是梯度。给sever上传的是梯度,下载的不是梯度 感谢 老师每次函数都是换着用,学到很多,有心了 entropy = tf.nn.softmax_cross_entropy_with_logits(labels=policy, logits=logits) policy_loss = policy_loss - 0.01 * entropy 这段儿减去了的entropy 是 用logits 和 把softmax(logits)当labels 算的 自己和自己交叉熵,不过我试了下有用,就是作用不太明白,希望能补充解释下

class PPO(): # PPO算法主体 def __init__(self): super(PPO, self).__init__() 这里定义PPO时没有指定父类,super是不是多余了啊?麻烦老师解疑下,浏览器里没找到答案,谢谢啦

p377倒数第二段,每个采样轨迹的状态为,->起始状态 p378第二段,在计算只需要交互一步,->在计算时 p379第一段,那么每次交互产生的轨迹 ->时 p380第3行,来减轻数据的强相关性 ->之间 感谢龙龙老师,dqn算法看懂啦,通过看代码才看懂,推导得公式角标实在太多了,容易看迷糊

Q函数展开为: 第二步比第一步多了一个 𝑟𝑡

1.第2个等式R((t))带了两个括号 2.第3个等式,𝑅(𝜏𝑡+1:𝑇)直接换成了V(𝜏𝑡+1:𝑇), R=V?显然不成立,应该把V放到求期望的中括号外边

轨迹τ的概率应该是p,推导过程却用的π,容易让萌新产生误解。。

## Summary fix typo of llm_config in LLMExtractionStrategy fix typo of LLMConfig in crawl4ai ## List of files changed and why llm-strategies.md ## How Has This Been Tested? YES. ##...

## 自查清单 在提交 issue 之前,请确保您已完成以下步骤: - [x ] 我已仔细阅读了[相关使用说明文档](https://evalscope.readthedocs.io/zh-cn/latest/get_started/parameters.html) - [x ] 我已查看了[常见问题解答](https://evalscope.readthedocs.io/zh-cn/latest/get_started/faq.html) - [x ] 我已搜索并查看了现有的 issues,确认这不是一个重复的问题 ## 问题描述 ```python Traceback (most recent call last): File "", line 1,...