Liang Ganglin

Results 5 comments of Liang Ganglin

什么时候解决呢?我也遇到相同问题了

> > ![image](https://user-images.githubusercontent.com/17381012/87619089-e9f86200-c74d-11ea-9e5f-f81d3944c159.png) > > 这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的? > > 另外,至于公式(29)和(31),西瓜书上也有解释,这两个都是第t+1次采样的值函数。 >r_t+1这个表达式,含义就是第t+1步的奖赏,那就是状态x变化到x'的奖赏加上前面t步奖赏总和的γ折扣。 我也很难理解这个等式。第t+1步的奖赏为什么要加前面t步奖赏总和?又不是第t+1步的**累积**奖赏。还有,我也不理解Q_t+1(x,a)以γ折扣累积奖赏时代表的含义,是指把p378中的16.6式γ折扣累积奖赏的定义中的正无穷上限求和改成t+1上限求和就行了吗?

你们觉得代码中的注释proactor和reactor没有问题吗?怎么看出来下面的m_actormodel==1时是reactor,等于0时是proactor?我感觉搞反了吧,proactor不是异步的通过回调函数处理的吗?reactor是等待IO结束后同步处理的,我理解的对吗? ``` void WebServer::dealwithwrite(int sockfd) { util_timer *timer = users_timer[sockfd].timer; //reactor if (1 == m_actormodel) { if (timer) { adjust_timer(timer); } m_pool->append(users + sockfd, 1); while (true) { if (1...

@Vaufreyd Do you have solved it ? I meet the same problem. Could you help me? @tensorboy

I faced exactly same problem as you do, even use same application (notepad ).