urdaddy85 comments

Results 6 comments of


                                            urdaddy85

《基于 R 语言的自动化数据采集技术》讨论区

您好，在实践中遇到一个问题，就是使用htmlParse解析中文网页的时候经常会出现乱码，请问有没有好的解决方案： ``` path

《基于 R 语言的自动化数据采集技术》讨论区

@coderLMN 感谢回复；我的XML组件是最新的，我用的是WIN10的操作系统，网上说用Linux出现乱码的情况会少很多，不知是否是这个原因。 PS：虽然用htmlParse解析后是乱码，但是使用xpathSApply提取节点值得到的又是正常的，有点奇怪。

@LeeWill2016 ，stackoverflow这里有2个贴子，跟启用Chrome有关的，可以看一下： http://stackoverflow.com/questions/33124857/rselenium-is-not-working http://stackoverflow.com/questions/31124702/rselenium-unknownerror-java-lang-illegalstateexception-with-google-chrome 如果需要启用Chrome，需要先下载ChromeDriver.exe，然后在环境变量中设置这个文件的路径。

请问怎样从腾讯新闻的评论页提取评论信息呢？

@coderLMN 您好，在运行RSelenium的使用报错，google了几天，仍然没有解决，希望指点一下： ``` require(RSelenium) # 切换selenium-server-standalone.jar 的路径 setwd("D:\\Program Files\\R\\R-3.3.1\\library\\RSelenium\\bin") startServer() remDr

请问怎样从腾讯新闻的评论页提取评论信息呢？

@coderLMN 感谢回复。我用的是WIN10的操作系统。最终用了PhantomJS去链接服务器。

请问怎样从腾讯新闻的评论页提取评论信息呢？

问题解决： 1. RSelenium默认浏览器的打开路径一定是在C盘program files里面的，所以firefox最好默认安装路径； 2. Selenium 2.53 跟 firefox 47兼容不好，需要下载这个驱动Marionette driver (https://developer.mozilla.org/en-US/docs/Mozilla/QA/Marionette/WebDriver) 要不就使用firefox 46版本(参考：http://stackoverflow.com/questions/37693106/selenium-2-53-not-working-on-firefox-47)。