tomd
tomd copied to clipboard
部分标签转化的小问题
当我在爬取CSDN文章时,下面标签转化过程中出现了问题。 原文链接为:https://blog.csdn.net/weixin_38405253/article/details/100151657
<li>
RetentionPolicy.SOURCE: 注解只保留在源文件中
</li>
<li>
RetentionPolicy.CLASS : 注解保留在class文件中,在加载到JVM虚拟机时丢弃
</li>
<li>
RetentionPolicy.RUNTIME: 注解保留在程序运行期间,此时可以通过反射获得定义在某个类上的所有注解。
</li>
看了一下tomd的源码,有点看不懂,所以不清楚怎么改,所以自行打了一个补丁,代码如下
import re
str_ = '''<li>
RetentionPolicy.SOURCE: 注解只保留在源文件中
</li>
<li>
RetentionPolicy.CLASS : 注解保留在class文件中,在加载到JVM虚拟机时丢弃
</li>
<li>
RetentionPolicy.RUNTIME: 注解保留在程序运行期间,此时可以通过反射获得定义在某个类上的所有注解。
</li>'''
pattem = re.compile(' *<li.*?>(.*?)</li>', re.S)
s = re.sub(pattem, lambda temp: "+ " + temp.group(1).strip(), str_)
print(s)