AInseven issues

Results 8 issues of


                                            AInseven

a3c代码注释小问题

line170 # 从server拉取最新的梯度 self.client.set_weights(self.server.get_weights()) 拉取的应该时网络参数吧，不是梯度。给sever上传的是梯度，下载的不是梯度感谢老师每次函数都是换着用，学到很多，有心了 entropy = tf.nn.softmax_cross_entropy_with_logits(labels=policy, logits=logits) policy_loss = policy_loss - 0.01 * entropy 这段儿减去了的entropy 是用logits 和把softmax(logits)当labels 算的自己和自己交叉熵，不过我试了下有用，就是作用不太明白，希望能补充解释下

PPO代码的一个小问题

class PPO(): # PPO算法主体 def __init__(self): super(PPO, self).__init__() 这里定义PPO时没有指定父类，super是不是多余了啊？麻烦老师解疑下，浏览器里没找到答案，谢谢啦

377页，笔误、错字

p377倒数第二段，每个采样轨迹的状态为，->起始状态 p378第二段，在计算只需要交互一步，->在计算时 p379第一段，那么每次交互产生的轨迹 ->时 p380第3行，来减轻数据的强相关性 ->之间感谢龙龙老师，dqn算法看懂啦，通过看代码才看懂，推导得公式角标实在太多了，容易看迷糊

375页码，公式推导错误

Q函数展开为：第二步比第一步多了一个 𝑟𝑡

374页，公式推导错误

1.第2个等式R((t))带了两个括号 2.第3个等式，𝑅(𝜏𝑡+1:𝑇)直接换成了V(𝜏𝑡+1:𝑇)， R=V？显然不成立，应该把V放到求期望的中括号外边

测试版1205，363页，推导过程

轨迹τ的概率应该是p，推导过程却用的π，容易让萌新产生误解。。

Fix: llmConfig typo in llm-strategies.md

## Summary fix typo of llm_config in LLMExtractionStrategy fix typo of LLMConfig in crawl4ai ## List of files changed and why llm-strategies.md ## How Has This Been Tested? YES. ##...

return _winapi.DuplicateHandle( OSError: [WinError 6] 句柄无效。

## 自查清单在提交 issue 之前，请确保您已完成以下步骤: - [x ] 我已仔细阅读了[相关使用说明文档](https://evalscope.readthedocs.io/zh-cn/latest/get_started/parameters.html) - [x ] 我已查看了[常见问题解答](https://evalscope.readthedocs.io/zh-cn/latest/get_started/faq.html) - [x ] 我已搜索并查看了现有的 issues，确认这不是一个重复的问题 ## 问题描述 ```python Traceback (most recent call last): File "", line 1,...