被叫做可儿的逸轩
被叫做可儿的逸轩
看到作者的这个工具后,因为刚好在学Rust,就尝试按照论文用rust也写了个类似的工具。但是感觉还是有点瑕疵。 论文主要针对的是标准的新闻页面,所以最后打分的时候会加入p标签的权重来打分,因为标准新闻页面分段必然是p标签,所以正文的p标签密度会影响到分数。 然后我就想着试试技术类文章页面呢?我尝试了掘金和简书,发现几乎无法提取到有效内容。对比html后发现,这两个都是将MD转换成html来的,所以内容中p标签极少,大部分都是li、code等标签。段落分段也是直接使用的div标签。 所以我尝试把div的直接文本子元素包裹一层p标签,发现效果没有什么提升。 然后我又尝试把li、code等能直接包裹文本的块级文本标签直接当成p标签计数,发现也没有什么提升。 再检查所有标签的打分数据后,发现最主要的影响元素是因为MD转换的html文章,正文内部包裹了太多的标签了,正文长度26523的一篇文章,内部标签有接近2700个,导致实际的正文标签的文本密度极低,如果有一个p标签内容较长,那么他的文本密度就会极高,最后打分也会远高于真正的正文标签。 所以,我在想是否有什么方法可以更好的支持MD的这种正文提取? 测试用的文章: 正文标签数据:article(score:5.696602582296532, p_tag_num:67, td:10, sd: 0 , link_tag_num: 17, link_tag_text_length:214,tag_num:2526, text_length:26199) 部分p标签数据:p(score:5.977026284633939, p_tag_num:1, td:90, sd:0 , link_tag_num: 1, link_tag_text_length:9,tag_num:2, text_length:99):