Gordon Lee comments

Results 26 comments of


                                            Gordon Lee

English / 英语

Typo: There seems to be an extra `s` at the end of the line. https://github.com/MLNLP-World/Paper_Writing_Tips/blob/e028f19bdf956c76a8e008d6b46c6b3459cbf079/README.md?plain=1#L98

feat(WIP): 协同框架|融合的脚手架指令集|搜索优化|并发性能优化|架构调整

Thanks for formatting the code. How about the idea that "协同框架|融合的脚手架指令集|搜索优化|并发性能优化|架构调整"? We can discuss more details.

feat(WIP): 协同框架|融合的脚手架指令集|搜索优化|并发性能优化|架构调整

Hi, @QIN2DIM. Thanks for your awesome ideas! The project is still in construction at the very beginning stage. I need to schedule some features first. I have to admit that...

feat(WIP): 协同框架|融合的脚手架指令集|搜索优化|并发性能优化|架构调整

@QIN2DIM 谢谢你的建议~ 首先回答第二个问题： 1. 对于ACL*系列的会议，在设计爬虫之初，我认为Workshop文章是不被包含的，因此没有包含workshop的文章 2. 对于以下这两种情况：我认为以`2021-acl*`结尾的链接是值得爬取的，以`2021-ecnlp*`结尾的链接是不值得爬取的。为了方便处理，所以tag设置的是`^/2021.acl*` ``` * Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language...

feat(WIP): 协同框架|融合的脚手架指令集|搜索优化|并发性能优化|架构调整

@QIN2DIM 对于第一个问题，我理解的是获取`所有可访问的文章链接`似乎还是需要针对不同数据源进行分别的处理，比如`dblp`或者`acl`。所以可能不是很了解有什么`现代化的基础设施`可以做到这件事，欢迎来个新pr来改进这一问题（敲重点hhhh

feat(WIP): 协同框架|融合的脚手架指令集|搜索优化|并发性能优化|架构调整

@QIN2DIM 如果你有任何新进展、新问题、或者新的回复，也可以继续comment

feat(WIP): 协同框架|融合的脚手架指令集|搜索优化|并发性能优化|架构调整

@QIN2DIM 从我观察来看，ACLanthology官方也没有太统一的准则去规范workshop和非workshop，一些可能的经验是：对于19年以前的文章，以W开头是属于workshop的，但是也不保证非W开头就一定是主会。对于19年以后的文章，链接采用的命名规则是「年份」-「会议」-「细分」。我个人认为这个问题似乎并没有这么重要，并不影响实际的使用（从刚才的统计结果看出）。当然我还是希望能够看到更多的具体例子（或者统计值）来说明下面的观察，因为我觉得如果属实的话，确实是一个比较严重的问题： `发现使用 tag 与观测值相差还蛮大的。如果和我理解的一样的话，每条规则可能错检或漏检几百条数据o_o ....`

feat(WIP): 协同框架|融合的脚手架指令集|搜索优化|并发性能优化|架构调整

@QIN2DIM 针对刚刚提出的第一个问题，我也希望能够有更多细节上的叙述或者讨论，因为我确实不太清楚”现代化的基础设施“具体指的是什么

feat(WIP): 协同框架|融合的脚手架指令集|搜索优化|并发性能优化|架构调整

> emmm，然而我還陷在 Workshop 的判斷規則裏，我屬於是躺平了……我稍後推上來（btw， Student Research Workshop 算不算 Workshop 呀 * 我上面列了两条判断规则，为了方便处理，优先满足第二条，所以这里是把srw也爬下来了 * 因为第二条规则造成的误判，我觉得在接受范围内 * 综上，我觉得这确实不是问题（在没有更多证据引入前

feat(WIP): 协同框架|融合的脚手架指令集|搜索优化|并发性能优化|架构调整

> > 我确实不太清楚”现代化的基础设施“具体指的是什么 > > 用在 OSINT 上的工具包，一般用来扫描一个二级域名注册的子域名以及邮箱域名，或者根据一个接口域名扫描可能存在的 `/path` 。但我观察了一下配置文件中的站点，RESP 编排非常严谨规范，同时站点内容有很强的时效性，所以我个人感觉是用不上这些工具的，手动实现一个能做到同样需求的工具类还快些。我个人不是很认同通过扫描的方式来获取所有可用的文章链接，理由如下： * 对于dblp数据来源，如何确保通过扫描的方式获取？似乎并不适用于所有情况 * 仍然需要设计扫描规则，仍然需要对不同来源的数据设计分别的规则 * 如何判断文章链接是可用的、有效的，似乎并不清楚 * 抓取单个网页的信息，尽管可能会存在很多无用的信息，但是是否是一种影响更小的方式，相比于扫描全站而言