goproject icon indicating copy to clipboard operation
goproject copied to clipboard

请教?

Open i11us0ry opened this issue 3 years ago • 4 comments

charset.DetermineEncoding为什么不直接获取rsp.body编码呢,而是要获取title编码后再和charset比较呢?

i11us0ry avatar Jul 03 '21 07:07 i11us0ry

因为 charset.DetermineEncoding 并不是100%准确

fesiong avatar Jul 04 '21 02:07 fesiong

我的意思是为什么不是用charset.DetermineEncoding获取整个网站的编码,而是要正则title后用charset.DetermineEncoding获取title的编码,因为很多情况下是无法正常获取title的,比如首页跳转,js静态设置title,动态设置title等,都不能简单的通过正常正则获取tutle

---原始邮件--- 发件人: "Sinclair @.> 发送时间: 2021年7月4日(周日) 上午10:12 收件人: @.>; 抄送: @.@.>; 主题: Re: [fesiong/goproject] 请教? (#2)

因为 charset.DetermineEncoding 并不是100%准确

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

i11us0ry avatar Jul 04 '21 02:07 i11us0ry

因为 charset.DetermineEncoding 用来判断的字符串是前1024个字符串,直接放入html,按照截取的1024个字符来判断,夹杂了太多html代码,会降低 charset.DetermineEncoding 的准确性, 直接使用标题可以得到更高的准确率

fesiong avatar Jul 04 '21 02:07 fesiong

了解了,谢谢,如果优化title的正则策略的话,那效果会更好吧

---原始邮件--- 发件人: "Sinclair @.> 发送时间: 2021年7月4日(周日) 上午10:49 收件人: @.>; 抄送: @.@.>; 主题: Re: [fesiong/goproject] 请教? (#2)

因为 charset.DetermineEncoding 用来判断的字符串是前1024个字符串,直接放入html,按照截取的1024个字符来判断,夹杂了太多html代码,会降低 charset.DetermineEncoding 的准确性, 直接使用标题可以得到更高的准确率

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

i11us0ry avatar Jul 04 '21 02:07 i11us0ry