Langchain-Chatchat
Langchain-Chatchat copied to clipboard
[FEATURE] 能否加一个下拉框选择不同文本分割器?
功能描述 / Feature Description 下拉框选择不同文本分割器
解决的问题 / Problem Solved 1、想要切换文本分割器需要修改配置文件的默认文本分割器的配置 2、想要为不同的文档选择对应的文本分割器可以单独做设置
实现建议 / Implementation Suggestions 上传文件到存储到向量数据库的步骤更改为,文档可以先上传,中间步骤加一步(为每一个文档设置不同的文本分割器,如果无选择则使用默认的分割器),然后点击"添加至向量库"才进行向量化的操作。
替代方案 / Alternative Solutions 暂无 替代方案
其他信息 / Additional Information
It seems like you've got this under control, if you want help or have specific questions, let me know what I can do for you!
About Dosu
This response is meant to be useful and save you time. It is not meant to be a precise solution, but rather a starting point for your own research.
Help me be more useful! Please leave a 👍 if this is helpful and 👎 if it is irrelevant.
If you want to continue the conversation, start your reply with @dosu-bot.
我这边做的是根据不同的知识库 匹配不同的分词器,我们一个知识库的数据格式是统一的
我这边做的是根据不同的知识库 匹配不同的分词器,我们一个知识库的数据格式是统一的
但这种方式,前期的源数据的格式就比较死了,数据来源能保证符合这个格式吗
我们自己整理了数据来源。你怎么指望一个分词器对应不同的文档呢?实际测试过,不可能的。
我们自己整理了数据来源。你怎么指望一个分词器对应不同的文档呢?实际测试过,不可能的
所以呀,你们数据预处理,都是搜集同一个文件类型?预处理这个工作很大量的呀
0.3.x考虑增加