Han comments

Results 3 comments of

Han

《基于 R 语言的自动化数据采集技术》讨论区

> 从 DOM 树看，这个页面的文件列表就是一组 `` 标签，因此可以用 **XPath** 来提取。文件列表前面还有几个其他链接：Name， Last modified， Size， Description， Parent Directory，因此文件链接是从第 6 个开始，可以用表达式 `a[position()>5]` 表示这个条件。我们要提取的是链接中的文件名，所以可以用 `xmlGetAttr` 提取每个节点中的 `href` 属性值。 > > 提取文件列表的代码如下： > > ```r > >...

《基于 R 语言的自动化数据采集技术》讨论区

已经找到原因，需要使用xml2的read_html函数读取，可以正常取出。 doc filelist [1] "19l03s_tavg.txt" "19l03s_tmax.txt" "19l03s_tmin.txt" [4] "19l05s_tavg.txt" "19l05s_tmax.txt" "19l05s_tmin.txt" [7] "19l06s_tavg.txt" "19l06s_tmax.txt" "19l06s_tmin.txt" [10] "19l07s_tavg.txt" "19l07s_tmax.txt" "19l07s_tmin.txt" [13] "19l08s_tavg.txt" "19l08s_tmax.txt" "19l08s_tmin.txt" [16] "19l13s_tavg.txt" "19l13s_tmax.txt" "19l13s_tmin.txt" [19] "19l17s_tavg.txt" "19l17s_tmax.txt"...

《基于 R 语言的自动化数据采集技术》讨论区

> 是不是因为接口升级了？是的，因为接口升级，需要XML2，read_html读取。