AutomatedDataCollectionWithR issues

练习题的答案也有错误，没有勘误表。

2

比如第四章习题7(g)，答案使用的是(f)的代码。这道题有些搞脑子，花了我一两个小时。毕竟大家是在学习工具；当工具稍微复杂了点，就照葫芦画瓢吧，节省大家时间。 ```r #(g) Extract the node for all presidents whose term started in or after the year 1960. library(stringr) choose

realalien

```R .libPaths("D:/R/library") library(RCurl) library(bitops) library(XML) library(stringr) library(plyr) library(rvest) ##i为2010和2011时会报错 ##Error in eval(substitute(expr), envir, enclos) : # input conversion failed due to input error, bytes 0xA9 0x4F 0xC6 0xF0 [6003] for(i...

dayushan

说明：书中的一些示例代码只能作为参考

9

大家都知道，对于活跃的网站来说，定期改版页面是必须的。因此网页结构的变化也不可避免。**本书中的代码只是根据在某个时间点对网页结构进行的分析而编写的，并不等于这些代码是长期有效的。** 比如在第一章，濒危文化遗产地的维基百科网址 http://en.wikipedia.org/wiki/List_of_World_Heritage_in_Danger 用 htmlParse() 函数就会报错，这是因为维基百科已经启用了 https 安全协议，因此需要证书才能访问，读者可以参考 9.1.7 "通过 HTTPS 进行的连接" 中的内容，对原书代码进行修改。再比如我在翻译的过程中就发现“商品评论的情绪”一章中，亚马逊网页的结构已经发生了变化，并在书中 16.1.2 节注明了变化的情况。但是随着时间的流逝，其他网页也难免会变。**这种页面结构的变化是现代网站普遍存在的现象**。毕竟网页开发的技术在不断进步，包括 HTML5 和 CSS3 的出现，大大提高了网页应用的用户体验，网站的前端经常会发生变化，也是正常现象。总之，毕竟这是一本关于网络抓取的书，读者应该根据书中讲解的原理自己去尝试分析页面，写出自己的代码，而不是拘泥于书上的代码，这样学习的效果会更好。

coderLMN

enhancement

请问怎样从腾讯新闻的评论页提取评论信息呢？

21

您好，我从9.1.9节看到从实时DOM树中提取底层的HTML代码，于是想在本节的框架下提取腾讯新闻的评论，但好像page_source()函数并不获得含有评论内容的DOM树。在其他章节我没找到如何解决该问题的线索，特向您请教。如果需要的话，不如我们就以最近闹得沸沸扬扬的雷洋的新闻事件的评论为例，我附上评论网址：http://coral.qq.com/1398070563 。希望能得到您的帮助，非常感谢。

jlhnihao

原书的勘误表发布了，遇到代码问题可以先去查一下

网址是 http://www.r-datacollection.com/errata/errata.pdf

coderLMN

bug

enhancement

P208初试Selenium Webdriver总是报错，求指导

8

![image](https://cloud.githubusercontent.com/assets/23131996/20208596/136e547e-a82a-11e6-8588-8ed9fc71c01b.png) ![image](https://cloud.githubusercontent.com/assets/23131996/20208598/16f7d796-a82a-11e6-948f-3a0f3c80bc6e.png) ![image](https://cloud.githubusercontent.com/assets/23131996/20208600/1b74c978-a82a-11e6-8f87-0113906dd889.png) ![image](https://cloud.githubusercontent.com/assets/23131996/20208604/1f2b08e8-a82a-11e6-9643-8217afe83b69.png) ![image](https://cloud.githubusercontent.com/assets/23131996/20208607/24d24702-a82a-11e6-9e36-35af9187b749.png) 在初试化服务器的时候，一开始会显示Selenium server is up and running. 而后就报错 library(devtools) install_github(repo="Rwebdriver",username="crubba") .libPaths("D:/R/library") library(Rwebdriver) library(XML) ###创建一个新的浏览器窗口，告诉服务器要产生的是一个FireFox浏览器窗口 start_session(root="http://localhost:4444/wd/hub/",browser="firefox") ![image](https://cloud.githubusercontent.com/assets/23131996/20208617/34fd4e7e-a82a-11e6-979b-4f0a36e3400a.png)

dayushan

AutomatedDataCollectionWithR
AutomatedDataCollectionWithR copied to clipboard

Metadata

练习题的答案也有错误，没有勘误表。

老师，365淘房网站上的数据爬取出问题，麻烦您帮我看一下

说明：书中的一些示例代码只能作为参考

请问怎样从腾讯新闻的评论页提取评论信息呢？

原书的勘误表发布了，遇到代码问题可以先去查一下

P208初试Selenium Webdriver总是报错，求指导

← Metadata

Owner

Metadata

AutomatedDataCollectionWithR AutomatedDataCollectionWithR copied to clipboard

Metadata

练习题的答案也有错误，没有勘误表。

老师，365淘房网站上的数据爬取出问题，麻烦您帮我看一下

说明：书中的一些示例代码只能作为参考

请问怎样从腾讯新闻的评论页提取评论信息呢？

原书的勘误表发布了，遇到代码问题可以先去查一下

P208初试Selenium Webdriver总是报错，求指导

← Metadata

Owner

Metadata

AutomatedDataCollectionWithR
AutomatedDataCollectionWithR copied to clipboard