Gordon Lee

Results 25 comments of Gordon Lee

Typo: There seems to be an extra `s` at the end of the line. https://github.com/MLNLP-World/Paper_Writing_Tips/blob/e028f19bdf956c76a8e008d6b46c6b3459cbf079/README.md?plain=1#L98

Thanks for formatting the code. How about the idea that "协同框架|融合的脚手架指令集|搜索优化|并发性能优化|架构调整"? We can discuss more details.

Hi, @QIN2DIM. Thanks for your awesome ideas! The project is still in construction at the very beginning stage. I need to schedule some features first. I have to admit that...

@QIN2DIM 谢谢你的建议~ 首先回答第二个问题: 1. 对于ACL*系列的会议,在设计爬虫之初,我认为Workshop文章是不被包含的,因此没有包含workshop的文章 2. 对于以下这两种情况:我认为以`2021-acl*`结尾的链接是值得爬取的,以`2021-ecnlp*`结尾的链接是不值得爬取的。为了方便处理,所以tag设置的是`^/2021.acl*` ``` * Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language...

@QIN2DIM 对于第一个问题, 我理解的是获取`所有可访问的文章链接`似乎还是需要针对不同数据源进行分别的处理,比如`dblp`或者`acl`。 所以可能不是很了解有什么`现代化的基础设施`可以做到这件事, 欢迎来个新pr来改进这一问题(敲重点hhhh

@QIN2DIM 如果你有任何新进展、新问题、或者新的回复,也可以继续comment

@QIN2DIM 从我观察来看,ACLanthology官方也没有太统一的准则去规范workshop和非workshop,一些可能的经验是:对于19年以前的文章,以W开头是属于workshop的,但是也不保证非W开头就一定是主会。对于19年以后的文章,链接采用的命名规则是「年份」-「会议」-「细分」。 我个人认为这个问题似乎并没有这么重要,并不影响实际的使用(从刚才的统计结果看出)。当然我还是希望能够看到更多的具体例子(或者统计值)来说明下面的观察,因为我觉得如果属实的话,确实是一个比较严重的问题: `发现使用 tag 与观测值相差还蛮大的。如果和我理解的一样的话,每条规则可能错检或漏检几百条数据o_o ....`

@QIN2DIM 针对刚刚提出的第一个问题,我也希望能够有更多细节上的叙述或者讨论,因为我确实不太清楚”现代化的基础设施“具体指的是什么

> emmm,然而我還陷在 Workshop 的判斷規則裏,我屬於是躺平了……我稍後推上來(btw, Student Research Workshop 算不算 Workshop 呀 * 我上面列了两条判断规则,为了方便处理,优先满足第二条,所以这里是把srw也爬下来了 * 因为第二条规则造成的误判,我觉得在接受范围内 * 综上,我觉得这确实不是问题(在没有更多证据引入前

> > 我确实不太清楚”现代化的基础设施“具体指的是什么 > > 用在 OSINT 上的工具包,一般用来扫描一个二级域名注册的子域名以及邮箱域名,或者根据一个接口域名扫描可能存在的 `/path` 。但我观察了一下配置文件中的站点,RESP 编排非常严谨规范,同时站点内容有很强的时效性,所以我个人感觉是用不上这些工具的,手动实现一个能做到同样需求的工具类还快些。 我个人不是很认同通过扫描的方式来获取所有可用的文章链接,理由如下: * 对于dblp数据来源,如何确保通过扫描的方式获取?似乎并不适用于所有情况 * 仍然需要设计扫描规则,仍然需要对不同来源的数据设计分别的规则 * 如何判断文章链接是可用的、有效的,似乎并不清楚 * 抓取单个网页的信息,尽管可能会存在很多无用的信息,但是是否是一种影响更小的方式,相比于扫描全站而言