Chen Lei
Chen Lei
加cookie了吗?
也有可能和关键词有关,也有可能是接口不稳定,有概率无法获取微博。
我也没遇到过,如果之前打开看正在操作的文件可能会报错,但是有文件夹没文件的情况却很奇怪,您再运行看看,猜测可能和文件路径有关。
可能存在重复爬取问题,解决方法参考 #66 。
FURTHER_THRESHOLD 设置成大于50的整数看看是否有效果。FURTHER_THRESHOLD代表细分页面数, 一般来说最多50,如果某搜索页面大于等于它,说明微博实际页面可能大约它,要继续细分。比如,某结果有实际100页,但网页最多显示50页,如果当前有50页,就说明可能没显示完,就细分,而50就是FURTHER_THRESHOLD 。如果FURTHER_THRESHOLD 设置的很大,就不会细分了。
search.py是相关代码。程序的逻辑是最开始使用最粗的范围(关键词和日期),如果满足FURTHER_THRESHOLD才细分,以此类推。#66 的修改就是停止循环的条件,程序不会无限循环。猜测可能之前的进度有那些打印未保存的任务,即便修改了代码也没有立即生效。
您可以参考一下 #473 。
感谢反馈。因为默认命令行会按照进度文件继续执行之前的任务,如果更换关键词,需要把命令行crawls之后的部分换成其它名字,名字只有符合规范即可。
论文引用格式不限,只要按照您自己的需求来就可以。 另外,刚搜索了下您提供的引用,DMI-CAT好像拼写错误,应该是DMI-TCAT。本程序模拟的是微博网页版的搜索(),程序是非商业性质的,目的就是帮助学生老师等的论文写作和学术研究,程序的编写语言是python3,希望能帮到您。 还有,如果您愿意,能否在您论文事宜结束后,即论文发表或答辩完成一段时间后,在您认为方便的情况下,能否告知论文的简单介绍(issue或邮件方式都可),一句话介绍也可以。因为weibo-search项目后续可能会添加相关学术研究或应用的介绍,简短介绍使用过weibo-search的项目(论文或学术研究等),介绍类似于[这样](https://github.com/dataabc/weiboSpider/blob/master/docs/academic.md)。这只会在您同意的情况下才会放入学术介绍文档,如果您没有同意,是不会放入介绍文档的。这不是必需的,不管您是否同意,都欢迎使用本项目,都可以按照您的需求,在论文中适当引用本项目的内容。祝您写出优秀的论文。
命令行crawl部分可以看作进度文件,把这部分换个名字就可以了。