liangpn

Results 10 comments of liangpn

> Xinference 如果 curl 没问题,感觉是 FastGPT 那边的问题。 是的,curl 是没问题的,fastgpt那边我也提了issue.

> @zRzRzRzRzRzRzR 维护者你好,我深入阅读源码后了解了加载kb的机制,梳理出这张流图(在知识库问答函数最外层加载时有所不同,因为看的版本被团队其他人做过修改) ![image-20240301124635271](https://private-user-images.githubusercontent.com/80431571/309475141-f766da41-65a5-455c-ba7e-53e4a02cfd50.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MDk4ODQ3NzksIm5iZiI6MTcwOTg4NDQ3OSwicGF0aCI6Ii84MDQzMTU3MS8zMDk0NzUxNDEtZjc2NmRhNDEtNjVhNS00NTVjLWJhN2UtNTNlNGEwMmNmZDUwLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDAzMDglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwMzA4VDA3NTQzOVomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTI4ZDdmYTA0M2YwYzhlZTNmODkwMTBhZTczNWFmMmM5YjBlZTM5OWY3ODNjNTE4NzhlZWJkNTYwYzQ2MjdmOGQmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.HjCy5G2maLfDLBYfcTSTpeoqp3uv-KUaN0rmH0GPJ2c) 我注意到在faiss_cache.py中new_vector_store函数加载时指定了距离度量方式,源码: > > ```python > vector_store = FAISS.from_documents([doc], embeddings, normalize_L2=True,distance_strategy="METRIC_INNER_PRODUCT") > ``` > > 对应的是新建知识库的场景 可是当我继续挖掘源码时我发现,最终会调用langchain源码的faiss.py中的__from函数 在该函数中,逻辑为 > > ```python > if distance_strategy == DistanceStrategy.MAX_INNER_PRODUCT: >...

> 出现这个报错的原因是本地加载知识库时,会指定距离度量方式为 METRIC_INNER_PRODUCT ,但该加载不经过__from,故度量类型不会被纠正,在faiss.py的init方法调用时会有代码如下 > > ```python > if ( > self.distance_strategy != DistanceStrategy.EUCLIDEAN_DISTANCE > and self._normalize_L2 > ): > warnings.warn( > "Normalizing L2 is not applicable for metric type:...

> > > 出现这个报错的原因是本地加载知识库时,会指定距离度量方式为 METRIC_INNER_PRODUCT ,但该加载不经过__from,故度量类型不会被纠正,在faiss.py的init方法调用时会有代码如下 > > > ```python > > > if ( > > > self.distance_strategy != DistanceStrategy.EUCLIDEAN_DISTANCE > > > and self._normalize_L2 > > > ):...

已经看了。第二点server/knowledge_base\utils.py line 106. The correct line should be "UnstructuredWordDocumentLoader": ['.docx', '.doc'],在v0.2.10版本出现的问题,已经修复了的。bug现象是,上传一个doc中无包含图片的可以成功上传,有包含图片就会报以上的异常信息。

> 您好,你怎么解决的 还未解决呢,同志

> **问题描述 / Problem Description** 添加文件到知识库,上传doc中有图片会上传不成功 > > **复现问题的步骤 / Steps to Reproduce** 就是上传带有截图的doc到知识库 > > **预期的结果 / Expected Result** 源文件和向量库都保存成功 > > **实际结果 / Actual Result** 向量库失败 > >...

> 我这边做的是根据不同的知识库 匹配不同的分词器,我们一个知识库的数据格式是统一的 但这种方式,前期的源数据的格式就比较死了,数据来源能保证符合这个格式吗

> 我们自己整理了数据来源。你怎么指望一个分词器对应不同的文档呢?实际测试过,不可能的 所以呀,你们数据预处理,都是搜集同一个文件类型?预处理这个工作很大量的呀