feapder
feapder copied to clipboard
start_requests 能否爬取一个 url 数组,或者将 url 作为参数传进去
现在 start_requests 的写法是将要爬取的 url 写死在 yield feapder.Request("https://www.baidu.com/")
中。
如果想要同时爬取多个 url,怎么处理比较科学呢?
能否直接传入一个数组?或者在 start 方法的地方,通过循环将 url 一个个传进去?
虽然在 《爬虫集成》 中介绍了多爬虫的集成方式。如果每个爬取的站点使用的解析器都是一样的,有没有更简单的写法呢?
现在 start_requests 的写法是将要爬取的 url 写死在
yield feapder.Request("https://www.baidu.com/")
中。 如果想要同时爬取多个 url,怎么处理比较科学呢?能否直接传入一个数组?或者在 start 方法的地方,通过循环将 url 一个个传进去?
可以传入一个数组
url_list = [...]
for url in url_list:
yield feapder.Request(url)
虽然在 《爬虫集成》 中介绍了多爬虫的集成方式。如果每个爬取的站点使用的解析器都是一样的,有没有更简单的写法呢?
解析器一样的,那不就一个解析器就行了,不用上集成
好的好的。谢谢两位 @mkdir700 @Boris-code