gudaocode
gudaocode
Thank you for the reply!
经过测试,目前的下载历史记录应该是保存在data.db文件里面,但是如果使用代码(而不是exe)执行时,该data.db文件会受到运行环境的影响,导致它被保存到不同的位置。 比如当我下载一个新的id的所有内容时,我会在你这个代码前后写一些自己的代码,保存到特定位置和指定的命名规则等;但是当首次下载后,后续继续跟踪更新时,我又会选择另一套规则来执行你的代码,这就导致两者的data.db在不同的路径 为了让代码更强健,建议: 1、建议允许用户自定义data.db的指定位置,最好在--database DATABASE, -d DATABASE 中允许指定(且允许自定义db文件的名字) 谢谢 2、另外,建议考虑一下,是否有必要把所有爬过的对应内容均作记录,对于某个指定id已经爬取过的内容,一定是历史所有内容,那么是否只是简单记录一下上次爬取的日期和时间就可以 案例参考: https://github.com/dataabc/weiboSpider 它的指定爬取id list文档只是一个txt,里面记录了微博的id、微博的名称,以及每次爬取后就会更新的最新日期和时间,会很简单 否则当爬取内容越来越多时,该data.db文件会变得非常大,也会影响爬虫运行速度