Han

Results 3 comments of Han

> 从 DOM 树看,这个页面的文件列表就是一组 `` 标签,因此可以用 **XPath** 来提取。文件列表前面还有几个其他链接:Name, Last modified, Size, Description, Parent Directory,因此文件链接是从第 6 个开始,可以用表达式 `a[position()>5]` 表示这个条件。我们要提取的是链接中的文件名,所以可以用 `xmlGetAttr` 提取每个节点中的 `href` 属性值。 > > 提取文件列表的代码如下: > > ```r > >...

已经找到原因,需要使用xml2的read_html函数读取,可以正常取出。 doc filelist [1] "19l03s_tavg.txt" "19l03s_tmax.txt" "19l03s_tmin.txt" [4] "19l05s_tavg.txt" "19l05s_tmax.txt" "19l05s_tmin.txt" [7] "19l06s_tavg.txt" "19l06s_tmax.txt" "19l06s_tmin.txt" [10] "19l07s_tavg.txt" "19l07s_tmax.txt" "19l07s_tmin.txt" [13] "19l08s_tavg.txt" "19l08s_tmax.txt" "19l08s_tmin.txt" [16] "19l13s_tavg.txt" "19l13s_tmax.txt" "19l13s_tmin.txt" [19] "19l17s_tavg.txt" "19l17s_tmax.txt"...

> 是不是因为接口升级了? 是的,因为接口升级,需要XML2,read_html读取。