Word2VEC_java 加载成功模型，但因编码问题无法成功向量化词

加载成功模型，但因编码问题无法成功向量化词

Open xuexingdong opened this issue 9 years ago • 4 comments

使用时遇到一个奇怪的bug，在Eclipse中能运行成功，maven打成jar包放在控制台里运行模型就无法向量化词语了，经过不断调试发现以下解决方案在Word2vec.java的readString方法中 sb.append(new String(bytes)); 和 sb.append(new String(bytes, 0, i + 1)); 改为 sb.append(new String(bytes, "UTF-8")); 和 sb.append(new String(bytes, 0, i + 1, "UTF-8"));

Oct 20 '16 02:10 xuexingdong

thx

Mar 04 '17 02:03 ansjsun

你好，我用google训练好的二进制bin模型，在Word2vec.java的readFloat方法中报错，byte[] bytes = new byte[4]行内存溢出，改为byte[50]后readString()byte b = dis.readByte()报错java.io.EOFException 继续修改MAX_SIZE至100还是不行。请问是什么问题呢？

Dec 06 '17 03:12 dhaimeng

把代码发上来。。要是方便。把模型发我邮箱

Dec 09 '17 02:12 ansjsun

问题已经解决，感谢。原因是只改了eclipse的.ini配置文件，没有修改项目的JVM分配内存，修改大以后运行成功。

Dec 11 '17 03:12 dhaimeng

Word2VEC_java Word2VEC_java copied to clipboard

加载成功模型，但因编码问题无法成功向量化词

Word2VEC_java
Word2VEC_java copied to clipboard