苏剑林(Jianlin Su)
苏剑林(Jianlin Su)
爬虫技术是敏感话题,不方便讨论,多看官方文档自行探索就好。
感谢建议,下一版会考虑加上的,不过openreview现在的命中率可能还不高。
这个做起来比较复杂,需要结合注册机制来做,需要大改,还在评估中。
啥叫“查看到具体的会议名称”?你是说每个会议独立的订阅链接吗?
目前是标题和摘要混合搜索的,没有对标题加权,可能你这个query刚好那么巧~后面会择机加上搜索字段的选择。
人工针对具体的会议网站进行爬取,没有固定的方式
html的主要问题是不是每篇paper都有,不大友好,而且html的排版其实还是稍差。 html的好处是可以响应式,在手机上也许看得舒服一点,但正常我们也不可能长时间在手机看论文吧?如果简单刷一下的话,其实自带的PDF阅读器在手机也可以勉强看一下(就是比较费眼睛)
1、每篇论文左上角带#的数字,就是链接到原始arxiv链接的; 2、如果只想要一个arxiv_id,那么标题(绿色部分)本身的链接也有arxiv_id; 3、网站自带的阅读器右上角其实也有个下载按钮,可以仔细留意一下。
多GPU我没什么经验,也基本没有这个需求,所以实在是不能提出什么有效的意见。我记得多GPU好像是需要将训练数据转为tf.dataset格式的。
请试用这个脚本 https://github.com/bojone/bert4keras/blob/master/examples/task_seq2seq_autotitle_multigpu.py