MaxKB icon indicating copy to clipboard operation
MaxKB copied to clipboard

[BUG] Web 知识库无法完整同步某些站点

Open saurlax opened this issue 1 year ago • 5 comments

联系方式

[email protected]

MaxKB 版本

v1.7.0 (build at 2024-10-31T12:49, commit: 44b3aed5)

问题描述

使用 Web 知识库同步某些网站时,只能同步到一两个页面,例如下面的链接:

  • https://starlight.astro.build/

但是下面的网站却可以正常同步:

  • https://tauri.app/

怀疑有可能是因为链接跟踪的问题,tauri 的文档在页头中有超链接的 /start/concept/blog/release 开头的就都能同步,而 starlight 的没有这样的规律,就导致了只同步的两个文档。

重现步骤

同步 starlight 的参数配置:

image

结果只得到了首页和第一个页面:

image

同步 tauri 的参数配置:

image

结果可以得到所有/start/concept/blog/release 开头的文档:

image

期待的正确结果

能够同步设置中定义的根目录下的所有页面。

相关日志输出

No response

附加信息

此外建议可以增加从 sitemap 导入的功能,这样对于一些现有支持 sitemap 功能的框架导入效果更好。知识库名称也可以设置为选取页面的 title 而不是超链接的文本。

saurlax avatar Nov 06 '24 09:11 saurlax