Liu Jun comments

Results 4 comments of


Liu Jun

记录下待开发的功能，大家也可以来提想要的功能

不好意思，只注意看教学视频了。另外还有一个建议，对于采集多个页面文章的情况下，默认会把文本合并到输出的csv文件里。那么能否在提取数据的设置里增加一项用户自定义分隔项，例如我可以把每篇文章的文本用分隔。

> 这个在提取数据操作前用JS操作一下就行了，可以参考下面这个视频： https://www.bilibili.com/video/BV1qs4y1z7Hc 这样试了不行： ![image](https://github.com/NaiboWang/EasySpider/assets/902005/ae4572c0-2a3e-49f8-8b2f-0a5f3a323912) 如果在“提取页面文本”元素用js追加文本，会给每个p文本都追加。而我希望给整个页面提取出来的文本追加。如果在该页面所有p文本提取的循环结束后用js追加（如图），结果是没有期望结果。而且我也不希望追加的eot作为另一个单独的字段。这个需求抽象来说就是：我需要对某个操作或循环的结果，可以用js来处理并替代它们记录到csv。例如上述例子：详情页面的每个p元素的文本被采集为text字段，那么这个页面处理的循环结束后，我需要用js处理结果，合并它们并追加一个eot标签字符串，然后将这个修改后的页面文本保存到结果csv。

记录下待开发的功能，大家也可以来提想要的功能

这个办法生效，就是它还是会在csv首行生成一个同名列。如果后续需要处理，例如使用pandas.read，还需要人工去删除一下。