GerapyAutoExtractor 优化文本字数统计算法，兼容英文段落场景

优化文本字数统计算法，兼容英文段落场景

Open yjshi2015 opened this issue 2 years ago • 0 comments

针对issue 22的问题，优化了文本字数的统计算法。

该算法使用场景：中文网页 & 中文网页包含英文段落；如果text中英文字符数量 / len(text) > 0.5，则默认该文本以英文为主，按照“单词数量”计算，而非“字符数量”计数，进而修正“文本密度”指标（其中0.5为经验值）；否则按原逻辑统计。

Jun 30 '22 01:06 yjshi2015