ToutiaoCrawler 文章列表无法正常获取，返回HTTP301

文章列表无法正常获取，返回HTTP301

Open Edward-liang opened this issue 6 years ago • 3 comments

现在get_toutiao_news_byapi.py里使用的url是： http://www.toutiao.com/api/pc/feed/?category=all&utm_source=toutiao&widen=1&max_behot_time=0&max_behot_time_tmp=0&tadrequire=true&as=A1B5D9F152FBC03&cp=59123B3CE0B3FE1 网上搜索结果显示301是资源改变位置了。请问是api的url改动了吗？从哪里可以获取新的api接口呢谢谢。

此外，该url直接访问是可以打开，返回json结果的。开头是{"has_more": false, "message": "success"。请问这个是不是爬虫的配置造成的，谢谢

Jan 01 '19 15:01 Edward-liang

这些接口都比较老，是16年开发的，后面很多都过期了，还有的xpath变了。

如果想获取新闻列表，

保底方案是使用selenium直接加载头条主页获取新闻列表
https://toutiao.com/search_content/?offset=0&format=json&keyword=手机&autoload=true&count=20&cur_tab=1&from=search_tab 这个是通过关键字获取新闻的接口，应该还能用。

Jan 02 '19 12:01 haibincoder

好的我理解了 Thank you.

Jan 02 '19 14:01 Edward-liang

@haibincoder 根据关键词搜索新闻的接口有变，截止2019-03-07测试有效，修改： get_toutiao_news_bykeyword.py url = 'https://www.toutiao.com/api/search/content/?aid=24&app_name=web_search&offset=0&format=json&keyword=' + keyword + '&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis'

Mar 07 '19 08:03 honyxiao

ToutiaoCrawler ToutiaoCrawler copied to clipboard

文章列表无法正常获取，返回HTTP301

ToutiaoCrawler
ToutiaoCrawler copied to clipboard