ToutiaoCrawler icon indicating copy to clipboard operation
ToutiaoCrawler copied to clipboard

文章列表无法正常获取,返回HTTP301

Open Edward-liang opened this issue 6 years ago • 3 comments

现在get_toutiao_news_byapi.py里使用的url是: http://www.toutiao.com/api/pc/feed/?category=all&utm_source=toutiao&widen=1&max_behot_time=0&max_behot_time_tmp=0&tadrequire=true&as=A1B5D9F152FBC03&cp=59123B3CE0B3FE1 网上搜索结果显示301是资源改变位置了。 请问是api的url改动了吗?从哪里可以获取新的api接口呢 谢谢。

此外,该url直接访问是可以打开,返回json结果的。 开头是{"has_more": false, "message": "success"。 请问这个是不是爬虫的配置造成的,谢谢

Edward-liang avatar Jan 01 '19 15:01 Edward-liang

这些接口都比较老,是16年开发的,后面很多都过期了,还有的xpath变了。

如果想获取新闻列表,

  1. 保底方案是使用selenium直接加载头条主页获取新闻列表
  2. https://toutiao.com/search_content/?offset=0&format=json&keyword=手机&autoload=true&count=20&cur_tab=1&from=search_tab 这个是通过关键字获取新闻的接口,应该还能用。

haibincoder avatar Jan 02 '19 12:01 haibincoder

好的 我理解了 Thank you.

Edward-liang avatar Jan 02 '19 14:01 Edward-liang

@haibincoder 根据关键词搜索新闻的接口有变,截止2019-03-07测试有效,修改: get_toutiao_news_bykeyword.py url = 'https://www.toutiao.com/api/search/content/?aid=24&app_name=web_search&offset=0&format=json&keyword=' + keyword + '&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis'

honyxiao avatar Mar 07 '19 08:03 honyxiao