QIN2DIM
QIN2DIM
啊啊啊- -我代码还没传上来,目前只是“新建文件夹”。 1. [√] 协同框架:引入并发的请求网络+任务队列替换掉目前的 `for loop` 逻辑; 2. [√] 融合的脚手架指令集:借助开源库 `fire` 重写传参逻辑,使得项目可持续拓展,可垂直分层; 3. [...] 搜索优化:这个确实需要讨论=。=我仔细(反复)看了几遍源码,这个模糊匹配是基于标题的吗orz...; 4. [...] 架构调整:如果这个项目打算长期维护更新,可以考虑做一些代码组织结构上的调整,否则随着 corpus/dataset 的累增,按照现有交互逻辑会越来越卡(响应迟钝)。 以上 √ 的地方我有现成的代码框架可以套过来,4 的话如果担心移植性差或臃肿的话可以考虑用 `yaml` 替换 `json` 作为对象存储,3 的话我暂时没有多的想法,但个人觉得仅仅是基于标题的...
@Doragd hi, 我仔细研究了一下项目最新版本的 `crawler` 实现,有个困扰了我很久的问题一直想请教一下-。- 就是每个配置文件下的 `url` 域名以及 `root-path` 都是统一的,为何不使用一些现代化的基础设施直接扫描所有可访问的文章链接…… 然后是 `acl_conf.json`,其中的 `tag` 的作用是清洗出 `aclanthology` 中非 workshop 的文章标题吗-、-我用 xpath 复现了同样的业务代码,也在网页端简单对比了一下 `Contents` 以及 ctrl F 的结果,发现使用 `tag` 与观测值相差还蛮大的。如果和我理解的一样的话,每条规则可能错检或漏检几百条数据o_o ....
对于这方面我还是太小白了- -有没有什么规则可以判断一个 element 是不是 Workshop 呢 0.0
还是说-。-官方已经归档到指定的 path 下面了。
emmm,然而我還陷在 Workshop 的判斷規則裏,我屬於是躺平了……我稍後推上來(btw, Student Research Workshop 算不算 Workshop 呀
> 我确实不太清楚”现代化的基础设施“具体指的是什么 用在 OSINT 上的工具包,一般用来扫描一个二级域名注册的子域名以及邮箱域名,或者根据一个接口域名扫描可能存在的 `/path` 。但我观察了一下配置文件中的站点,RESP 编排非常严谨规范,同时站点内容有很强的时效性,所以我个人感觉是用不上这些工具的,手动实现一个能做到同样需求的工具类还快些。
> 我个人不是很认同通过扫描的方式来获取所有可用的文章链接 是这样的
是的,我调整了程序架构- -路径索引还有一些问题