cw2vec-pytorch icon indicating copy to clipboard operation
cw2vec-pytorch copied to clipboard

你好,想请教一个问题

Open Jungle-liu opened this issue 4 years ago • 7 comments

我想用wiki中文语料库来训练词向量,可以做到吗?那个word_strokes.txt,请问是怎么得到的呢?

Jungle-liu avatar Apr 12 '20 02:04 Jungle-liu

我想用wiki中文语料库来训练词向量,可以做到吗?那个word_strokes.txt,请问是怎么得到的呢? 我也是想做这个,我也想问一下那个word_strokes.txt是怎么得到的,如果我要换成字的n-gram应该要在哪里改,请问您有头绪了吗

klqqq avatar Apr 27 '20 08:04 klqqq

我想用wiki中文语料库来训练词向量,可以做到吗?那个word_strokes.txt,请问是怎么得到的呢? 我也是想做这个,我也想问一下那个word_strokes.txt是怎么得到的,如果我要换成字的n-gram应该要在哪里改,请问您有头绪了吗

strokes.txt里面有常见汉字的笔画,由于真实的笔画一般很难在计算机中表示,这里用中文term表示笔画,你把每个term当作一个char编码,多个term就可以表示一个字,然后词由字构成,word_strokes.txt就是这样构成的

zhang2010hao avatar Apr 27 '20 12:04 zhang2010hao

我想用wiki中文语料库来训练词向量,可以做到吗?那个word_strokes.txt,请问是怎么得到的呢?

strokes.txt里面有常见汉字的笔画,由于真实的笔画一般很难在计算机中表示,这里用中文term表示笔画,你把每个term当作一个char编码,多个term就可以表示一个字,然后词由字构成,word_strokes.txt就是这样构成的

zhang2010hao avatar Apr 27 '20 12:04 zhang2010hao

您好!我想问下怎样修改程序,不使用word_strokes.txt,直接用字去组成词的n-gram?

luoshunchong avatar May 10 '21 02:05 luoshunchong

我想用wiki中文语料库来训练词向量,可以做到吗?那个word_strokes.txt,请问是怎么得到的呢? 我也是想做这个,我也想问一下那个word_strokes.txt是怎么得到的,如果我要换成字的n-gram应该要在哪里改,请问您有头绪了吗

您好!我也想不使用word_strokes.txt,直接换成字的n-gram,但是我不知道在哪里修改,请问您是解决了这个问题了吗?是怎么解决的呢?

luoshunchong avatar May 10 '21 02:05 luoshunchong

我想用wiki中文语料库来训练词向量,可以做到吗?那个word_strokes.txt,请问是怎么得到的呢? 我也是想做这个,我也想问一下那个word_strokes.txt是怎么得到的,如果我要换成字的n-gram应该要在哪里改,请问您有头绪了吗

您好!我也想不使用word_strokes.txt,直接换成字的n-gram,但是我不知道在哪里修改,请问您是解决了这个问题了吗?是怎么解决的呢?

太久没看我有点忘了,反正最后我是仿照word_strokes.txt,创建了一个字的n-gram的txt文件,然后跑模型,但是demo我都跑不通,使用新文件跑模型更是疯狂报错,最后就没做了

klqqq avatar May 10 '21 02:05 klqqq

我想用wiki中文语料库来训练词向量,可以做到吗?那个word_strokes.txt,请问是怎么得到的呢? 我也是想做这个,我也想问一下那个word_strokes.txt是怎么得到的,如果我要换成字的n-gram应该要在哪里改,请问您有头绪了吗

您好!我也想不使用word_strokes.txt,直接换成字的n-gram,但是我不知道在哪里修改,请问您是解决了这个问题了吗?是怎么解决的呢?

太久没看我有点忘了,反正最后我是仿照word_strokes.txt,创建了一个字的n-gram的txt文件,然后跑模型,但是demo我都跑不通,使用新文件跑模型更是疯狂报错,最后就没做了

好的呀,感谢感谢,我也是试试

luoshunchong avatar May 10 '21 03:05 luoshunchong