easy-dataset
easy-dataset copied to clipboard
[Feature]
你的功能请求是否与某个问题相关?请描述。 使用该项目进行切块的时候,对于有明确标题分隔的文本,不可避免的有些内容特别少,这些数据其实没有什么意义,且数据量大的情况下,检查起来很麻烦。
描述你期望的解决方案 这样的内容能否在「数据清洗」自动删除?或者添加一个功能删除所有低于 {指定数量} 的文本块。
亦或者在「文献处理」界面,添加一个文本块的「筛选模块」,通过搜索,字数上的筛选。以此让用户自行搜索文本块、批量操作文本块。
这个功能亦能方便部分操作,例如我要处理很多论文内容,通过搜索关键词“参考文献”可以筛选出有关的文本块,然后进行后续操作。
描述你考虑过的替代方案 现在只能手动检查
其他相关信息 使用文档结构分块会自动遇到这个问题。