张哲 Zhangzhe
张哲 Zhangzhe
您的邮件我已收到,将尽快回复!!
> “词向量embedding的维度不一致”指的是? @shenshen-hungry 例如,我使用python open(utf-8)打开词向量文件后,按行用dict字典结构对每个词汇进行存储可能得到的是980个词汇,但是用list.append来存储词向量文件中的每行词汇就可能得到的是1000个。将list中的词汇写道输出文件中,也可以发现其中有很多处的词汇是重复的。 我目前只能暂时,在有重复的部分跳过,既不保留词汇,也不保留相应的词向量。
@shenshen-hungry 从我读取后,输出到文件中的结果来看,这个词向量文件中是有重复的词汇的,如下所示:
@shenshen-hungry 是这个文件:sgns.target.word-word.dynwin5.thr10.neg5.dim300.iter5 另外在sgns.sogou.word这个文件中,也有类似情况
> 年后面可能有一个全角空格,导致看起来像是一样的。我们只是进行了分词,没有对全角空格做过滤,因为有的时候全角空格可能表示文本中的缺字。 @shenshen-hungry 我在去掉python的strip()之后,得到两个“年”仍然显示是同一个词汇。请问,有没有什么办法在python读取的时候得到两个不同的词汇呢?
> 我也碰到了这个问题,不过我是在R里做的。只要在导入向量文本的时候选择半角空格为分隔符,就能分辨出不同的词汇。 感谢!
LSTM模型的学习能力有限,不用有太高的期待: - 对于只统计预测‘,。?‘标点符号的F1和recall,指标在60左右;如果算上‘O’空符号,所有的一起的准确率是80左右 - 使用词向量进行训练好于使用字向量进行训练,具体数据有些忘了。
Is there any progress now, guys?
I found a vscode extension `CJK word handler`, will it be offically adopt? @kieferrm @rebornix
您的邮件我已收到,将尽快回复!!