gAnswer icon indicating copy to clipboard operation
gAnswer copied to clipboard

pkubase-full.txt数据集导入出错

Open JimXiongGM opened this issue 5 years ago • 7 comments

你好,

我使用./bin/gbuild pku_base /opt/gAnswer_pkubase/data/pkubase-full.txt尝试导入数据集,但是出现大量的报错,请问该怎么解决呢?谢谢

begin build Prefix
lexer error in line 534: invalid number 0"
lexer error in line 4534: unexpected character ▒ 
lexer error in line 7267: unexpected character > 
parse error in line 8947: '.' expected after triple 
lexer error in line 14441: invalid string
parse error in line 25613: '.' expected after triple
.
.
.

JimXiongGM avatar Jul 17 '19 11:07 JimXiongGM

您好! 这些error主要是pkubase原始数据中存在不规范的格式导致的,在gbuild过程中,这些error会被跳过,不影响build的过程。在我们提供的在线pkubase endpoint上,目前同样不包括这些出现error的triple。 所以,暂时您可以无视这些error,我们今后会提供无error版本的pkubase三元组数据。 感谢您对gAnswer的使用

nicklin96 avatar Jul 17 '19 13:07 nicklin96

非常感谢您的解答。在win10上使用eclipse运行源码后,我遇到了新的问题:在浏览器端输入查询字符后,后台出错,具体如图,这是为什么呢?

JimXiongGM avatar Jul 18 '19 01:07 JimXiongGM

不好意思,图片看不太清,您方便复制一下报错信息或者重新发更清晰的图吗?麻烦您了

nicklin96 avatar Jul 18 '19 06:07 nicklin96

你好,上述链接可以点击下载原图,另发一份如下: image 补充一点,我没有对源码进行修改,但是对data文件夹和启动内存参数进行了修改:

  1. 提示找不到/data/test/mini-ccks.txt,于是我把pkubase\paraphrase\ccksminutf.txt复制并重命名为/data/test/mini-ccks.txt
  2. 将文件pkubase\paraphrase\pkubase-mention2ent.txt重命名为pkubase\paraphrase\mini-mention2ent.txt
  3. 在eclipse中设置启动参数为-Xmx20480m

不知是否是因为我的改动导致错误,请求解答,非常感谢!

JimXiongGM avatar Jul 18 '19 06:07 JimXiongGM

您好! 我们在自己的环境下测试了一下,并没有出现您的问题,我们怀疑是某处编码不统一导致的,gAnswer使用的编码是utf8,源代码中有中文字符,所以会和GBK有冲突 另外,data/test/ccks-mini.txt是用来存放测试用问题的文件,您可以查看qa.gAnswer的main function,找到它的作用。您应该新建一个data/test/ccks-mini.txt,并且写入您要输入的问题

nicklin96 avatar Jul 18 '19 12:07 nicklin96

您可以尝试在qa.GAnswer中启动gAnswer,而不是gAnswerhttp

nicklin96 avatar Jul 18 '19 12:07 nicklin96

谢谢您的耐心指导~确实是我字符集设置有误,设定为UTF-8之后运行成功。再次感谢!

JimXiongGM avatar Jul 19 '19 00:07 JimXiongGM