huwenxing

Results 6 comments of huwenxing

就是用几个质数做的简单的哈希函数,这些数都是可以改的,你也可以自己定义一个哈希函数,目的就是把所有n-gram都映射到一个词表中。 (每个n-gram会得到一个数值,该数值对词表大小取模,得到它在词表中的位置) 词表大小也是自己定的,理论上词表越大,效果越好;词表越小,不同的n-gram就越有可能映射到词表的同一个位置。 但是这里要考虑到内存、耗时的问题(性价比),还有就是有的n-gram组合可能永远不会出现,所以词表也不是越大越好的。

刚才试跑了一下,我这边是没问题的,你看下环境什么的有没有问题吧

我跑了五次 出现了一次这种情况,loss成nan了,应该是代码里有bug,我明天找一下。感谢反馈!

鸽了。。

换了数据集肯定要改超参的,另外gpu不行的话确实会慢