newcrawler
newcrawler copied to clipboard
Replace speed/newcrawler/war to speed/windows-64bit-jetty-jre/war???
Replace speed/newcrawler/war to speed/windows-64bit-jetty-jre/war?? 请问在哪个文件修改?
1.Download NewCrawler war:
https://github.com/speed/newcrawler 2.Replace speed/newcrawler/war to speed/windows-64bit-jetty-jre/war
3.Run start.bat
4.http://127.0.0.1:8500/
下载这两个 https://github.com/speed/windows-64bit-jetty-jre/archive/master.zip 解压成 windows-64bit-jetty-jre https://github.com/speed/newcrawler/archive/master.zip 解压成 newcrawler
2.替换 newcrawler/war 到 windows-64bit-jetty-jre/war
3.点击 start.bat 运行
4.等 一会 就可以 在浏览器里访问 http://127.0.0.1:8500/
5.需要在newcrawler.com注册帐号
HTTP ERROR: 503 Problem accessing /. Reason:
Service Unavailable
Powered by Jetty:// 报这个错误
启动的时候显示这个。
能把上半部的异常也截图看下吗?
您好,这是点击start.bat的所有信息。目前服务器是windows2012 R2系统,
这是打开http://127.0.0.1:8500/报的错误,
这是JAVA版本。
javac编译都没问题,java环境没问题。
这是文件,都覆盖过去了。
是NewCrawler自带的JRE版本低了,需要你将start.bat文件里的这一行删掉(我看到你有JDK1.8的环境) set path="%~dp0jre\bin" 删掉后你再启动
您好,
可以打开了,
http://www.dianping.com/guangzhou/ch30/g141
这个是我要采集的网站,但是输入进去的时候显示这样,。
也无法像视频那样选择需要采集的字段。
你使用了chrome插件支持,需要下载
https://github.com/speed/newcrawler-plugin-urlfetch-chrome/archive/master.zip
并修改这个插件配置 , chromedriver.exe, ModHeader.crx 这两个文件位置要正确
您好,
为啥这个下一页测试的时候获取不到?
设置好下一页链接提取规则, 这个下一页的链接提取规则怎么设置?
下一页的提取规则请问是在这里填写吗?请问http://${property3}?pageNo=${page(1,1,50)}&PARAM1=${3},PARAM1=${3}是什么意思?
还有问题,乱码这个怎么解决?
不好意思,第一次用这个比较多问题,麻烦了。
自定义下一页CSS路径
div.page > a.next
页面没乱码?
您好,
页面没有乱码,
用自定义下一页CSS路径 div.page> a.next这个方式,测试采集的时候还是没有办法采集下一页的信息出来。