Gladiator566
Gladiator566
您好,请问是否可以打包一份现成可用的jar包release以供下载呢?或者详细说明一下windows下需要打包哪些内容、以及manage-schema中配置文件具体要怎么写可以么?谢谢! 还有现在solr版本为7.0.1请问该插件是否可以适用呢?再次感谢~
您好,非常棒的工作! 我对bge-reranker的微调部分有一些疑问如下: 1. 目前bge-reranker使用的基座模型是xlm-roberta-base,如果我想替换为其他huggingface上中文效果更好的bert类模型,是否只需要修改微调reranker时的model_name_or_path参数即可?还是说需要重新预训练一个reranker才行 2. reranker模型目前支持的max len是512,如果我的输入长度大于512,而又不想截断丢失语义信息的话,是否有其他好办法可以支持更长的文本长度?诸如longformer或roformer等模型是否可以在微调阶段使用? 3. 如果我想实现在保留排序能力的前提下,实现相关性检测的分类功能,即判断检索排序结果中哪些是真正相关的正样本,由于正样本的个数不确定,所以我不太想使用卡阈值或者取topn的方式来实现,请问reranker如何改进可以实现这种功能吗? 还请能够帮我解答一下,谢谢!
您好作者,在处理中文PDF时,我遇到了如下的问题: ToUnicode CMap is not valid and got dropped for font: 1 Warning: encoding confliction detected in font: 1 转换出的html中无法显示中文,我看了下PDF里包含GBK-EUC-H编码的TrueType(CID)字体,可能导致了文档编码出现了问题。 请问这个问题该如何解决呢?谢谢!期待您的回复~
您好,非常棒的工作,我一直在使用bge系列模型,但目前有一个疑问,就是是否可以得知原文本中哪些关键词片段对于最终embedding表征的贡献是最大的?是否可以引入关键词权重的信息,人工的去控制感兴趣部分的关键词片段在生成embedding向量时具有更高的权重呢?请问咱们是否有过这方面的研究或者好的参考建议,谢谢!