newcrawler icon indicating copy to clipboard operation
newcrawler copied to clipboard

Replace speed/newcrawler/war to speed/windows-64bit-jetty-jre/war???

Open whairg opened this issue 4 years ago • 15 comments

Replace speed/newcrawler/war to speed/windows-64bit-jetty-jre/war?? 请问在哪个文件修改?

1.Download NewCrawler war:

https://github.com/speed/newcrawler 2.Replace speed/newcrawler/war to speed/windows-64bit-jetty-jre/war

3.Run start.bat

4.http://127.0.0.1:8500/

whairg avatar Mar 22 '20 16:03 whairg

下载这两个 https://github.com/speed/windows-64bit-jetty-jre/archive/master.zip 解压成 windows-64bit-jetty-jre https://github.com/speed/newcrawler/archive/master.zip 解压成 newcrawler

2.替换 newcrawler/war 到 windows-64bit-jetty-jre/war

3.点击 start.bat 运行

4.等 一会 就可以 在浏览器里访问 http://127.0.0.1:8500/

5.需要在newcrawler.com注册帐号

speed avatar Mar 23 '20 01:03 speed

HTTP ERROR: 503 Problem accessing /. Reason:

Service Unavailable

Powered by Jetty:// 报这个错误

whairg avatar Mar 23 '20 03:03 whairg

12761584941047_ pic 启动的时候显示这个。

whairg avatar Mar 23 '20 05:03 whairg

能把上半部的异常也截图看下吗?

speed avatar Mar 23 '20 05:03 speed

image image image 您好,这是点击start.bat的所有信息。目前服务器是windows2012 R2系统, image 这是打开http://127.0.0.1:8500/报的错误, image 这是JAVA版本。 image javac编译都没问题,java环境没问题。 image image 这是文件,都覆盖过去了。

whairg avatar Mar 23 '20 08:03 whairg

是NewCrawler自带的JRE版本低了,需要你将start.bat文件里的这一行删掉(我看到你有JDK1.8的环境) set path="%~dp0jre\bin" 删掉后你再启动

speed avatar Mar 23 '20 08:03 speed

您好,

可以打开了, http://www.dianping.com/guangzhou/ch30/g141 这个是我要采集的网站,但是输入进去的时候显示这样,。 image image 也无法像视频那样选择需要采集的字段。

whairg avatar Mar 23 '20 08:03 whairg

你使用了chrome插件支持,需要下载 https://github.com/speed/newcrawler-plugin-urlfetch-chrome/archive/master.zip 并修改这个插件配置 , chromedriver.exe, ModHeader.crx 这两个文件位置要正确 5849540899249

speed avatar Mar 23 '20 09:03 speed

您好, image image 为啥这个下一页测试的时候获取不到?

whairg avatar Mar 23 '20 13:03 whairg

设置好下一页链接提取规则, 这个下一页的链接提取规则怎么设置?

whairg avatar Mar 23 '20 13:03 whairg

image 下一页的提取规则请问是在这里填写吗?请问http://${property3}?pageNo=${page(1,1,50)}&PARAM1=${3},PARAM1=${3}是什么意思?

whairg avatar Mar 23 '20 13:03 whairg

image 还有问题,乱码这个怎么解决? 不好意思,第一次用这个比较多问题,麻烦了。

whairg avatar Mar 23 '20 13:03 whairg

自定义下一页CSS路径 div.page > a.next 200323215844

speed avatar Mar 23 '20 14:03 speed

页面没乱码?

speed avatar Mar 23 '20 14:03 speed

您好,

页面没有乱码,

用自定义下一页CSS路径 div.page> a.next这个方式,测试采集的时候还是没有办法采集下一页的信息出来。

whairg avatar Mar 23 '20 14:03 whairg