hegansuan

Results 5 comments of hegansuan

> 您好,我对是将 NarrativeQA 数据集用作数据集中每条数据的单独树,还是作为数据集中所有数据的树感到困惑? > > 我有一个困惑,就是在使用NarrativeQA数据集的时候,是将数据集中每一条数据进行单独的构建树,还是将数据集中所有的数据进行构建树 请问你现在复现出来了吗?是对每一条数据进行构建树然后问答,还是整个数据集构建好了再进行检索问答?

> 是的,这篇论文总是全文。 > > 引用原文的实验部分: > > > NarrativeQA-Story 任务需要对 ** 整个叙事 ** 进行全面理解,才能准确回答其问题,从而测试模型在文学领域理解长文本的能力。 > > > 我认为你可能误解了我的意思。我想了解这篇文章中这个数据集的具体使用方式,以及所使用的是数据集的全文部分还是摘要部分?我注意到在文章的第六页,在介绍数据集时提到,Narrative QA 数据集是基于书籍和电影脚本的全文问答对。而文章在分段时使用了 100 个 token 的长度,而原始数据集的摘要长度大约在 600-900 个 token。我认为不应该是摘要,而是全文。我正在寻找这个数据集在 LLM 时代的通用使用方式,可能没有特别关注文章本身的一些技术细节,只是考虑数据集的使用。我理解这篇文章是一种结构化分层检索,其中在构建树形结构时使用全文构建节点,然后检索这些节点进行问答。所以你的意思是,我们仍然在使用全文数据,但在这篇文章中,我们将原始数据处理成节点摘要,然后对检索到的节点进行问答,对吗? >...

> 这个是因为pdf当前页存在一个90度旋转的情况,绘制检测框的时候没有根据旋转角度进行位置修正,但是应该不影响当前页面的文本提取。 那请问有什么办法进行位置修正吗?这样子不知道是否准确

> This is a scanned document. You should use OCR argument to parse it. I added OCR to my final command, but the layout analysis still referred to the image

> 这是扫描的文档。您应该使用 OCR 参数来解析它。 我是新手,请问如何才能启动源码?