crawlab icon indicating copy to clipboard operation
crawlab copied to clipboard

是否考虑做页面自动解析?

Open DarcyOly opened this issue 5 years ago • 0 comments

请描述该需求尝试解决的问题 由于平台一部分想直接面向用户,不局限于爬虫工程师,所以最好能像有些工具一样做自动的css selector,让用户去选爬取区域,或者最好是自动解析潜在内容路径,再映射到scrapy模板中,使用户直接就能拿数据(懒人方案)。

请描述您认为可行的解决方案 目前对一些内容自动做加权计算,结合newspaper3k包做了定制,可以很好的对列表页与详情页做推理计算出对应的最佳xpath路径。 请问怎么调用后台接口去触发这个自动解析,并自动输入xpath?

考虑过的替代方案 也可以写一个生成xpath自动解析的template,运行后直接调用sdk来建立新爬虫,不过总觉得有点麻烦。

DarcyOly avatar May 11 '20 02:05 DarcyOly