arcral

Results 4 comments of arcral

beam_search 为True的时候,批次大小被扩大了beam_size倍,但有个地方没改,dim没对应上,

解决了吗?我也是这样,结尾的几个字全是一样的

我看的pytorch源码实现,反向传播的时候,梯度的值需要散落(scatter)到输入最大值的索引位置(和前向的逻辑一致),这样散落之后,梯度的值只会传播到有限的几个位置,并且会叠加(因为最大值只有有限几个)。而你的实现,是直接计算了梯度的一个mask,梯度原位传播(没有传播到索引最大位置) 其实原理和max pool有一点类似,即梯度传递到输入最大值的位置

I built the latest code, and also met question like this. ImportError: /root/.local/lib/python3.6/site-packages/cpools-0.0.0-py3.6-linux-x86_64.egg/top_pool.cpython-36m-x86_64-linux-gnu.so: undefined symbol: _ZTIN3c1021AutogradMetaInterfaceE centos7 python 3.6.5 cuda 10.0 PyTorch 1.0.0 gcc 5.3.1