Langchain-Chatchat icon indicating copy to clipboard operation
Langchain-Chatchat copied to clipboard

[FEATURE] 能否加一个下拉框选择不同文本分割器?

Open liangpn opened this issue 11 months ago • 5 comments

功能描述 / Feature Description 下拉框选择不同文本分割器

解决的问题 / Problem Solved 1、想要切换文本分割器需要修改配置文件的默认文本分割器的配置 2、想要为不同的文档选择对应的文本分割器可以单独做设置

实现建议 / Implementation Suggestions 上传文件到存储到向量数据库的步骤更改为,文档可以先上传,中间步骤加一步(为每一个文档设置不同的文本分割器,如果无选择则使用默认的分割器),然后点击"添加至向量库"才进行向量化的操作。

替代方案 / Alternative Solutions 暂无 替代方案

其他信息 / Additional Information

liangpn avatar Mar 04 '24 06:03 liangpn

It seems like you've got this under control, if you want help or have specific questions, let me know what I can do for you!

About Dosu

This response is meant to be useful and save you time. It is not meant to be a precise solution, but rather a starting point for your own research.

Help me be more useful! Please leave a 👍 if this is helpful and 👎 if it is irrelevant.

If you want to continue the conversation, start your reply with @dosu-bot.

dosubot[bot] avatar Mar 04 '24 06:03 dosubot[bot]

我这边做的是根据不同的知识库 匹配不同的分词器,我们一个知识库的数据格式是统一的

qianma819 avatar Mar 06 '24 01:03 qianma819

我这边做的是根据不同的知识库 匹配不同的分词器,我们一个知识库的数据格式是统一的

但这种方式,前期的源数据的格式就比较死了,数据来源能保证符合这个格式吗

liangpn avatar Mar 08 '24 03:03 liangpn

我们自己整理了数据来源。你怎么指望一个分词器对应不同的文档呢?实际测试过,不可能的。

qianma819 avatar Mar 08 '24 05:03 qianma819

我们自己整理了数据来源。你怎么指望一个分词器对应不同的文档呢?实际测试过,不可能的

所以呀,你们数据预处理,都是搜集同一个文件类型?预处理这个工作很大量的呀

liangpn avatar Mar 08 '24 07:03 liangpn

0.3.x考虑增加

zRzRzRzRzRzRzR avatar May 05 '24 06:05 zRzRzRzRzRzRzR