xlx0010
xlx0010
@shenshen-hungry 您好,请问一下词向量的读取问题。 在您提供的预训练词向量上运行evaluation toolkit会显示错误如下: UnicodeDecodeError: 'gbk' codec can't decode byte 0x8c in position 13: illegal multibyte sequence 谢谢!
@shenshen-hungry 我试过utf8,还是会报错: UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 7593-7594: invalid continuation byte
@shenshen-hungry 我用的词向量文件是sgns.zhihu.bigram
@shenshen-hungry 
@shenshen-hungry 谢谢你!我在代码里过滤掉了几处会报错的地方,基本可以使用了。错误也是出在文件中有几处很长的‘=====’和‘――――’。