gAnswer
gAnswer copied to clipboard
pkubase-full.txt数据集导入出错
你好,
我使用./bin/gbuild pku_base /opt/gAnswer_pkubase/data/pkubase-full.txt
尝试导入数据集,但是出现大量的报错,请问该怎么解决呢?谢谢
begin build Prefix
lexer error in line 534: invalid number 0"
lexer error in line 4534: unexpected character ▒
lexer error in line 7267: unexpected character >
parse error in line 8947: '.' expected after triple
lexer error in line 14441: invalid string
parse error in line 25613: '.' expected after triple
.
.
.
您好! 这些error主要是pkubase原始数据中存在不规范的格式导致的,在gbuild过程中,这些error会被跳过,不影响build的过程。在我们提供的在线pkubase endpoint上,目前同样不包括这些出现error的triple。 所以,暂时您可以无视这些error,我们今后会提供无error版本的pkubase三元组数据。 感谢您对gAnswer的使用
非常感谢您的解答。在win10上使用eclipse运行源码后,我遇到了新的问题:在浏览器端输入查询字符后,后台出错,具体如图,这是为什么呢?
不好意思,图片看不太清,您方便复制一下报错信息或者重新发更清晰的图吗?麻烦您了
你好,上述链接可以点击下载原图,另发一份如下:
补充一点,我没有对源码进行修改,但是对data文件夹和启动内存参数进行了修改:
- 提示找不到
/data/test/mini-ccks.txt
,于是我把pkubase\paraphrase\ccksminutf.txt
复制并重命名为/data/test/mini-ccks.txt
- 将文件
pkubase\paraphrase\pkubase-mention2ent.txt
重命名为pkubase\paraphrase\mini-mention2ent.txt
- 在eclipse中设置启动参数为
-Xmx20480m
不知是否是因为我的改动导致错误,请求解答,非常感谢!
您好! 我们在自己的环境下测试了一下,并没有出现您的问题,我们怀疑是某处编码不统一导致的,gAnswer使用的编码是utf8,源代码中有中文字符,所以会和GBK有冲突 另外,data/test/ccks-mini.txt是用来存放测试用问题的文件,您可以查看qa.gAnswer的main function,找到它的作用。您应该新建一个data/test/ccks-mini.txt,并且写入您要输入的问题
您可以尝试在qa.GAnswer中启动gAnswer,而不是gAnswerhttp
谢谢您的耐心指导~确实是我字符集设置有误,设定为UTF-8之后运行成功。再次感谢!