Gladiator566 issues

Results 4 issues of


                                            Gladiator566

可否提供现成的jar包以供下载

您好，请问是否可以打包一份现成可用的jar包release以供下载呢？或者详细说明一下windows下需要打包哪些内容、以及manage-schema中配置文件具体要怎么写可以么？谢谢！还有现在solr版本为7.0.1请问该插件是否可以适用呢？再次感谢~

您好，非常棒的工作！我对bge-reranker的微调部分有一些疑问如下： 1. 目前bge-reranker使用的基座模型是xlm-roberta-base，如果我想替换为其他huggingface上中文效果更好的bert类模型，是否只需要修改微调reranker时的model_name_or_path参数即可？还是说需要重新预训练一个reranker才行 2. reranker模型目前支持的max len是512，如果我的输入长度大于512，而又不想截断丢失语义信息的话，是否有其他好办法可以支持更长的文本长度？诸如longformer或roformer等模型是否可以在微调阶段使用？ 3. 如果我想实现在保留排序能力的前提下，实现相关性检测的分类功能，即判断检索排序结果中哪些是真正相关的正样本，由于正样本的个数不确定，所以我不太想使用卡阈值或者取topn的方式来实现，请问reranker如何改进可以实现这种功能吗？还请能够帮我解答一下，谢谢！

ToUnicode CMap is not valid and got dropped for font: 1

您好作者，在处理中文PDF时，我遇到了如下的问题： ToUnicode CMap is not valid and got dropped for font: 1 Warning: encoding confliction detected in font: 1 转换出的html中无法显示中文，我看了下PDF里包含GBK-EUC-H编码的TrueType(CID)字体，可能导致了文档编码出现了问题。请问这个问题该如何解决呢？谢谢！期待您的回复~

关于向量的可解释性问题

您好，非常棒的工作，我一直在使用bge系列模型，但目前有一个疑问，就是是否可以得知原文本中哪些关键词片段对于最终embedding表征的贡献是最大的？是否可以引入关键词权重的信息，人工的去控制感兴趣部分的关键词片段在生成embedding向量时具有更高的权重呢？请问咱们是否有过这方面的研究或者好的参考建议，谢谢！

Gladiator566

可否提供现成的jar包以供下载

关于微调reranker的一些疑问

ToUnicode CMap is not valid and got dropped for font: 1

关于向量的可解释性问题