MaxKB
MaxKB copied to clipboard
[BUG] Web 知识库无法完整同步某些站点
联系方式
MaxKB 版本
v1.7.0 (build at 2024-10-31T12:49, commit: 44b3aed5)
问题描述
使用 Web 知识库同步某些网站时,只能同步到一两个页面,例如下面的链接:
- https://starlight.astro.build/
但是下面的网站却可以正常同步:
- https://tauri.app/
怀疑有可能是因为链接跟踪的问题,tauri 的文档在页头中有超链接的 /start、/concept、/blog、/release 开头的就都能同步,而 starlight 的没有这样的规律,就导致了只同步的两个文档。
重现步骤
同步 starlight 的参数配置:
结果只得到了首页和第一个页面:
同步 tauri 的参数配置:
结果可以得到所有/start、/concept、/blog、/release 开头的文档:
期待的正确结果
能够同步设置中定义的根目录下的所有页面。
相关日志输出
No response
附加信息
此外建议可以增加从 sitemap 导入的功能,这样对于一些现有支持 sitemap 功能的框架导入效果更好。知识库名称也可以设置为选取页面的 title 而不是超链接的文本。