liangpn
liangpn
> Xinference 如果 curl 没问题,感觉是 FastGPT 那边的问题。 是的,curl 是没问题的,fastgpt那边我也提了issue.
> @zRzRzRzRzRzRzR 维护者你好,我深入阅读源码后了解了加载kb的机制,梳理出这张流图(在知识库问答函数最外层加载时有所不同,因为看的版本被团队其他人做过修改)  我注意到在faiss_cache.py中new_vector_store函数加载时指定了距离度量方式,源码: > > ```python > vector_store = FAISS.from_documents([doc], embeddings, normalize_L2=True,distance_strategy="METRIC_INNER_PRODUCT") > ``` > > 对应的是新建知识库的场景 可是当我继续挖掘源码时我发现,最终会调用langchain源码的faiss.py中的__from函数 在该函数中,逻辑为 > > ```python > if distance_strategy == DistanceStrategy.MAX_INNER_PRODUCT: >...
> 出现这个报错的原因是本地加载知识库时,会指定距离度量方式为 METRIC_INNER_PRODUCT ,但该加载不经过__from,故度量类型不会被纠正,在faiss.py的init方法调用时会有代码如下 > > ```python > if ( > self.distance_strategy != DistanceStrategy.EUCLIDEAN_DISTANCE > and self._normalize_L2 > ): > warnings.warn( > "Normalizing L2 is not applicable for metric type:...
> > > 出现这个报错的原因是本地加载知识库时,会指定距离度量方式为 METRIC_INNER_PRODUCT ,但该加载不经过__from,故度量类型不会被纠正,在faiss.py的init方法调用时会有代码如下 > > > ```python > > > if ( > > > self.distance_strategy != DistanceStrategy.EUCLIDEAN_DISTANCE > > > and self._normalize_L2 > > > ):...
已经看了。第二点server/knowledge_base\utils.py line 106. The correct line should be "UnstructuredWordDocumentLoader": ['.docx', '.doc'],在v0.2.10版本出现的问题,已经修复了的。bug现象是,上传一个doc中无包含图片的可以成功上传,有包含图片就会报以上的异常信息。
> 您好,你怎么解决的 还未解决呢,同志
> **问题描述 / Problem Description** 添加文件到知识库,上传doc中有图片会上传不成功 > > **复现问题的步骤 / Steps to Reproduce** 就是上传带有截图的doc到知识库 > > **预期的结果 / Expected Result** 源文件和向量库都保存成功 > > **实际结果 / Actual Result** 向量库失败 > >...
> 我这边做的是根据不同的知识库 匹配不同的分词器,我们一个知识库的数据格式是统一的 但这种方式,前期的源数据的格式就比较死了,数据来源能保证符合这个格式吗
> 我们自己整理了数据来源。你怎么指望一个分词器对应不同的文档呢?实际测试过,不可能的 所以呀,你们数据预处理,都是搜集同一个文件类型?预处理这个工作很大量的呀