Xing Yiran

Results 30 comments of Xing Yiran

把cudnn版本更新到9.2试一试,我们测试过的环境是cuda 10.2和cudnn 9.2,这个issue(https://github.com/PaddlePaddle/RocketQA/issues/48)测试了cuda 10.0。这个问题可能和cudnn也有关系。

抱歉是我搞错了,应该是cuda 10.2 cudnn 7.6.5 paddle 2.2.2。 具体可以用paddle.version.cuda()和paddle.version.cudnn()检查一下,paddle有没有正确识别。 这个问题应该是paddle和gpu版本兼容的问题,可以参考一下:https://github.com/PaddlePaddle/PaddleOCR/issues/1637

In examples/faiss_example/rocketqa_service.py, you can see an example of developing a web service of rocketqa.

可以检查一下保存文件中是否有很多名字中包含moment的文件(`*moment*`)这些是为了中断训练后还能继续运行所保存的,在最后保存模型参数时可以删掉。

看着像是没有识别出gpu,可以先确认一下cuda和cudnn之类的是不是能争取识别gpu

可以,可以试试子集把文件切开,然后每份文件单独跑召回/精排流程。 但是分批次建立索引库意味着每次找到的只是一个子集中的结果,即使最后把这些子集结果合并也不能完全和全集检索结果完全一致。

是的,目前只能检索,不能细分。不过可以试试在检索后接上一个阅读理解的模型抽取答案。 或者试试文心 一言😂

ES检索并不会考虑语义信息,只针对单纯的query document的字面匹配。rocketQA会检索出语义相关的内容。检索模型在可信性、速度、资源消耗上对比生成式模型都有优势。

是的,现在对比ES,rocketQA还没有提取关键字的能力,毕竟这个项目的主要目标还是能提供一个便利的检索工具。 如果想有一个完整的检索流程(包括刚提到的关键词提取)可以看一看基于RocektQA的文心百中(https://wenxin.baidu.com/baizhong/index),它提供了刚刚说到的关键字提取能力,并且有适应不同服务器资源的版本。

抱歉这周比较忙,没时间更新。下周我们会抽时间整理shell更新上去。十分感谢!