xxcoco763 issues

Results 7 issues of


                                            xxcoco763

[FEATURE] 双栏pdf识别问题

试了一下模型，感觉对单栏pdf识别的准确性较高，但是由于使用的基本是ocr的技术，对一些双栏pdf论文识别出来有很多问题，请问有什么办法改善吗？

enhancement

[FEATURE] 如何实现只匹配下文，而不要上文的结果

在构建自己的知识库时，主要采用问答对的形式，那么也就是我需要的回答是在我的问题下面的内容，但是目前设置了chunk_size的值以后匹配的是上下文的内容，但我实际并不需要上文的。为了实现更完整的展示下面的答案，我只能调大chunk_size的值，但实际上上文的一半内容都是我不需要的。也就是扔了一半没用的东西给prompt，在faiss.py中我也没找到这块的一些描述，请问该如何进行修改呢？

enhancement

报错TypeError: Couldn't cast array of type list<item: string> to null

服务器没办法链接huggingface，只是将pred.py中THU/Longbench的路径换成了本地的/home/eval/LongBench/data,config文件中的模型路径也已经添加，报错如下 CUDA_VISIBLE_DEVICES=7 python pred.py --model llama2-13b-chat-16k Resolving data files: 100%|████████████████████████████████████| 34/34 [00:00

global_step文件

你好，在保存checkpoint的时候会自动保存一个很大的global_step文件，请问这个文件有什么用呢？可以不保存这个文件吗？占用内存太大了。

推理时候显存分配

模型推理的时候使用device_map="auto" 把模型分到了各张卡上，但是文本加载的显存直接全部放到0号卡了，可以将这部分显存也平均分配吗？

如何区别多音字

请问在推理时，如何区分多音字呢？这部分的前处理在哪边呢？

The effect on thin things was not good

thanks for the good work, however, i found that the foreground would change on thin things. I wander how to escape it. The original image mask trimap output I found...