AutomatedDataCollectionWithR icon indicating copy to clipboard operation
AutomatedDataCollectionWithR copied to clipboard

《基于 R 语言的自动化数据采集技术》读者讨论区

Results 16 AutomatedDataCollectionWithR issues
Sort by recently updated
recently updated
newest added

比如第四章习题7(g),答案使用的是(f)的代码。这道题有些搞脑子,花了我一两个小时。 毕竟大家是在学习工具;当工具稍微复杂了点,就照葫芦画瓢吧,节省大家时间。 ```r #(g) Extract the node for all presidents whose term started in or after the year 1960. library(stringr) choose

```R .libPaths("D:/R/library") library(RCurl) library(bitops) library(XML) library(stringr) library(plyr) library(rvest) ##i为2010和2011时会报错 ##Error in eval(substitute(expr), envir, enclos) : # input conversion failed due to input error, bytes 0xA9 0x4F 0xC6 0xF0 [6003] for(i...

大家都知道,对于活跃的网站来说,定期改版页面是必须的。因此网页结构的变化也不可避免。**本书中的代码只是根据在某个时间点对网页结构进行的分析而编写的,并不等于这些代码是长期有效的。** 比如在第一章,濒危文化遗产地的维基百科网址 http://en.wikipedia.org/wiki/List_of_World_Heritage_in_Danger 用 htmlParse() 函数就会报错,这是因为维基百科已经启用了 https 安全协议,因此需要证书才能访问,读者可以参考 9.1.7 "通过 HTTPS 进行的连接" 中的内容,对原书代码进行修改。 再比如我在翻译的过程中就发现“商品评论的情绪”一章中,亚马逊网页的结构已经发生了变化,并在书中 16.1.2 节注明了变化的情况。但是随着时间的流逝,其他网页也难免会变。**这种页面结构的变化是现代网站普遍存在的现象**。毕竟网页开发的技术在不断进步,包括 HTML5 和 CSS3 的出现,大大提高了网页应用的用户体验,网站的前端经常会发生变化,也是正常现象。 总之,毕竟这是一本关于网络抓取的书,读者应该根据书中讲解的原理自己去尝试分析页面,写出自己的代码,而不是拘泥于书上的代码,这样学习的效果会更好。

enhancement

您好,我从9.1.9节看到从实时DOM树中提取底层的HTML代码,于是想在本节的框架下提取腾讯新闻的评论,但好像page_source()函数并不获得含有评论内容的DOM树。在其他章节我没找到如何解决该问题的线索,特向您请教。如果需要的话,不如我们就以最近闹得沸沸扬扬的雷洋的新闻事件的评论为例,我附上评论网址:http://coral.qq.com/1398070563 。希望能得到您的帮助,非常感谢。

网址是 http://www.r-datacollection.com/errata/errata.pdf

bug
enhancement

![image](https://cloud.githubusercontent.com/assets/23131996/20208596/136e547e-a82a-11e6-8588-8ed9fc71c01b.png) ![image](https://cloud.githubusercontent.com/assets/23131996/20208598/16f7d796-a82a-11e6-948f-3a0f3c80bc6e.png) ![image](https://cloud.githubusercontent.com/assets/23131996/20208600/1b74c978-a82a-11e6-8f87-0113906dd889.png) ![image](https://cloud.githubusercontent.com/assets/23131996/20208604/1f2b08e8-a82a-11e6-9643-8217afe83b69.png) ![image](https://cloud.githubusercontent.com/assets/23131996/20208607/24d24702-a82a-11e6-9e36-35af9187b749.png) 在初试化服务器的时候,一开始会显示Selenium server is up and running. 而后就报错 library(devtools) install_github(repo="Rwebdriver",username="crubba") .libPaths("D:/R/library") library(Rwebdriver) library(XML) ###创建一个新的浏览器窗口,告诉服务器要产生的是一个FireFox浏览器窗口 start_session(root="http://localhost:4444/wd/hub/",browser="firefox") ![image](https://cloud.githubusercontent.com/assets/23131996/20208617/34fd4e7e-a82a-11e6-979b-4f0a36e3400a.png)