cw2vec-pytorch icon indicating copy to clipboard operation
cw2vec-pytorch copied to clipboard

This is a pytorch implement of cw2vec

Results 8 cw2vec-pytorch issues
Sort by recently updated
recently updated
newest added

你好,我希望在我的论文中使用你的zhihu.txt数据集, 可否请求您为代码库添加一个开源协议以满足对Ethical Issues的要求,谢谢。

我想用wiki中文语料库来训练词向量,可以做到吗?那个word_strokes.txt,请问是怎么得到的呢?

您好,请问您是否有与论文中的结果作比较?结果是否一致?

请问,为什么每次在运行到77%就会自动停止?

这个是我遇到的问题,跑到77%就结束了,不知道哪里出现了问题 Word Count: 8888 All word num: 634126 0%| | 0/12683 [00:00

请问cw2vec.py里的get_batch_pairs函数是什么意思,没看懂

**def get_batch_pairs(self,batch_size,window_size,word_data_ids,shuffle=True):** data.py里的这个函数能请您说明一下吗,没看懂,但是我现在是想做笔画的n-gram,笔画的数量扩充到了23种,于是word_strokes.txt里的格式就有变化,一位数字存不下来,您的写法里最后得到的strokes_transform的格式应该是[134, 767, 323, 0, ·····]这样的,但是因为我的数字超过的一位数,所以我的格式就变成了一个二维数组[ [12,3,1], [1, 2, 15], [0], [0], ······ ]这样的,然后现在报错是说 **ValueError: expected sequence of length 3 at dim 2 (got 4)** 这个数据长度对不上,这一块实在改起来有点困难,想请教您一下

运行出错,能麻烦您看一下吗 Traceback (most recent call last): File "cw2vec.py", line 172, in w2v.train() File "cw2vec.py", line 137, in train neg_v) File "/home/mere/桌面/cw2vec-pytorch/skip_gram.py", line 71, in forward log_target = (emb_u * emb_v).sum(1).squeeze().sigmoid().log()...