coderLMN comments

Results 85 comments of


                                            coderLMN

《基于 R 语言的自动化数据采集技术》讨论区

谢谢理解。从翻译完到出版差不多八九个月时间，不少网页都改版了。根据原理调整代码也是一种练习 👍

《基于 R 语言的自动化数据采集技术》讨论区

刚拿到样书，你说的206页网址是不是：www.r-datacollection.com/materials/selenium/dbQuery.html ？我这里能打开，估计你可能把最后那个dbQuery.html里的Q变成小写q了。 @yngcan

从 DOM 树看，这个页面的文件列表就是一组 `` 标签，因此可以用 **XPath** 来提取。文件列表前面还有几个其他链接：Name， Last modified， Size， Description， Parent Directory，因此文件链接是从第 6 个开始，可以用表达式 `a[position()>5]` 表示这个条件。我们要提取的是链接中的文件名，所以可以用 `xmlGetAttr` 提取每个节点中的 `href` 属性值。提取文件列表的代码如下： ``` R > doc filelist

《基于 R 语言的自动化数据采集技术》讨论区

@urdaddy85 我在我自己的环境里执行这三行代码得到的结果没有乱码，是正常的。我在 stack overflow 上看到有人说这种编码问题是和 XML 组件版本有关的，你可以看看自己的 XML 组件版本是否需要更新。

《基于 R 语言的自动化数据采集技术》讨论区

@urdaddy85 会不会是 R 语言开发环境的问题？我觉得这个可能性比较大。

《基于 R 语言的自动化数据采集技术》讨论区

我打开 http://fb.ezencart.com 的结果是无法访问： > This site can’t be reached > > fb.ezencart.com’s server DNS address could not be found. 关于回调域名参数，YDN 是这样说明的： > Yahoo redirects Users to this URL after they...

《基于 R 语言的自动化数据采集技术》讨论区

从错误信息：`Could not resolve host: ftp.wcc.nrcs.usda.gov` 可以判断是这个 FTP 网站无法访问了。我自己去试了一下，这个数据确实找不到了。现在有两个办法： 1. 搜索一下看看其他地方是否有这个数据的备份，如果有，就可以把它抓下来用，后面的代码不变； 2. 如果这个数据没有了，可以搜索其他的类似数据，并且根据数据格式的变化修改书中的示例代码。两种情况其实各有利弊，前者可以节约时间，但是后者可以更贴近实战。

《基于 R 语言的自动化数据采集技术》讨论区

可以在 `write.csv()` 函数里加上参数 `, append = T`，这样可以添加进去而不是覆盖了。 ```r write.csv(buildings_2,"building.csv",row.names = F, append = T) ```

《基于 R 语言的自动化数据采集技术》讨论区

你写入的内容是什么样的，贴出来看看

《基于 R 语言的自动化数据采集技术》讨论区

那你就改用 `write.table()` 函数吧： ```r write.table(buildings_2,"building.csv",row.names = F,append=T) ```