文档站 ChatBot Roadmap, 含候选方案,可点赞投票
第一目标
- [ ] 文档站的数据格式化:
- [ ] 去除所有图片
- [ ] 中英文独立处理
- [ ] 数据格式要符合要求(利用 OpenAI 做数据提取)
- [ ] 选一个模型
- [ ] 模型训练/微调,加入所有文档数据
- [ ] 模型评分,准备一个测试数据集
- [ ] 将模型部署为推理服务
- [ ] 挂接到文档站
- [ ] ChatBot 前端页面
- [ ] 后端加一个聊天泡泡
后续维护
- [ ] 新增内容持续更新,与网站内容保持同步
- [ ] 回复的问题跳转到文档页,或添加链接
- [ ] 提高回答的准确性,持续微调
- [ ] 收集用户数据,整理常见问题,完善对应页面
Click the checkbox below to generate a PR!
- [ ] Generate PR
@windsonsea, You have 5 requests left in this cycle which refreshes on 2024-11-06 09:22:09+00:00. If you have any questions or concerns, please contact us at [email protected].
方案一:扣子
https://www.coze.cn/
- 全 UI 无代码操作,基本上拎包入住,没门槛
- 给一个网址就会自己抓取、拆分数据
- 可设置 1-7 天自动同步网站数据
参阅 PR #5866 和 预览
方案三:d.run/dak
https://console.d.run/dak/
- 自己的产品自主可控,打磨使用可促进完善
- 需要手动拆分数据(2000+ markdown 文件)
- 智能体后期怎么与网站同步?
- 需要前端 Web 参与,或增加一个 iframe 插件
参见 PR #5870 和 预览
方案三的补充:借助一些工具 aitools
整理文件时,手工对文件进行打标签是无法避免的,打好标签后,可以直接运行脚本将word文档或者xlsx文档直接转出成标准的zip格式导入智能体应用。
aitools 的安装方式之一:
# 实际使用镜像方式,注意 linux 适用 4.1 版本,如果是 mac 请使用 3.1 版本
docker run -p 8888:8888 -e JUPYTER_TOKEN=[请替换成你需要的token] [registry.cn-shanghai.aliyuncs.com/clipper/aitools:3.1](http://registry.cn-shanghai.aliyuncs.com/clipper/aitools:3.1)
说明:
- 需要有一定后端基础,用镜像等方式部署工具
- 借助 python 等脚本批量处理 markdown、docx、xlsx
- 然后喂给 d.run 知识库
- 同样问题:怎么能跟网站保持同步?每次都手动吗?
- 方案三考虑也迁入到 dce 内,做个效果,先简单手工做几个文档
- 可以考虑从整体使用过程,和咱们需要的功能做个横向对比,like 参数表
方案三:d.run/dak
https://console.d.run/dak/
- 自己的产品自主可控,打磨使用可促进完善
- 需要手动拆分数据(2000+ markdown 文件)
- 智能体后期怎么与网站同步?
- 需要前端 Web 参与,或增加一个 iframe 插件
参见预览
- 数据可以使用粗略的分片,一个文件就是一个分片,使用上下文 128K 的模型,先出一个MVP
- 文档站更新后,需要更新语料库
PS:可以打磨公司产品,积累场景解决方案
方案三的补充:借助一些工具 aitools
整理文件时,手工对文件进行打标签是无法避免的,打好标签后,可以直接运行脚本将word文档或者xlsx文档直接转出成标准的zip格式导入智能体应用。
aitools 的安装方式之一:
# 实际使用镜像方式,注意 linux 适用 4.1 版本,如果是 mac 请使用 3.1 版本 docker run -p 8888:8888 -e JUPYTER_TOKEN=[请替换成你需要的token] [registry.cn-shanghai.aliyuncs.com/clipper/aitools:3.1](http://registry.cn-shanghai.aliyuncs.com/clipper/aitools:3.1)
说明:
- 需要有一定后端基础,用镜像等方式部署工具
- 借助 python 等脚本批量处理 markdown、docx、xlsx
- 然后喂给 d.run 知识库
- 同样问题:怎么能跟网站保持同步?每次都手动吗?
线上已经部署好这个工具,https://console.d.run/ai-tools/lab
- 去除所有图片
为啥要去除图片?
- 去除所有图片
为啥要去除图片?
这个是我想的,问答最后还是引流到对应的文档即可,不需要图片。
ChatBot 已上线,请参阅网站: https://docs.daocloud.io/
维护 ChatBot 的说明,请参阅: https://docs.daocloud.io/native/git/chatbot/

