针对issue 22的问题,优化了文本字数的统计算法。
该算法使用场景:中文网页 & 中文网页包含英文段落; 如果text中英文字符数量 / len(text) > 0.5,则默认该文本以英文为主,按照“单词数量”计算,而非“字符数量”计数,进而修正“文本密度”指标(其中0.5为经验值);否则按原逻辑统计。
英文字符数量 / len(text) > 0.5