text2vec icon indicating copy to clipboard operation
text2vec copied to clipboard

text2vec中,关于token与汉字字符换算

Open cutelitchi opened this issue 1 year ago • 1 comments

模型中max_seq_length指的应该是模型能处理的最大token数,我想问下,这个模型中的token跟汉字字符是一个大概什么样比例的换算关系,我在一个博客上看到在text2vec上是1token约等于1.5个汉字,请问这个结论对吗?

cutelitchi avatar Dec 26 '23 01:12 cutelitchi

是bert的token编码方式,1个token是1个汉字。

shibing624 avatar Dec 26 '23 10:12 shibing624