苏剑林(Jianlin Su)
苏剑林(Jianlin Su)
那就自己重新编译count_ngrams。
the correct link is http://aclweb.org/anthology/D17-1111
转换前的模型方便共享吗?或者给一个最小的复现代码?
@yzlnew 看上去你不是ensure_unicode版本?只有ensure_unicode版本的模型才保证能顺利转换成sentencepiece(在较新的版本中,ensure_unicode默认是开启的,你可以检查一下)
我暂时没这个算力去做这个比较实验... 但是从压缩就是智能的信仰来说,高压速率就等价于效果好(至少对于LLM来说)
非常感谢,已经很多年没有windows开发经验了😂
同等vocab_size时压缩率最高。
个人认为这不是一个tokenizer该做的事情,tokenizer的作用就是对原始字节串进行切分,这种特殊需求可以自行包装一层。
系统内存多大呢?以及Trainer的参数是多少?
Sorry, I'm not familiar with Pytorch. However, I am inviting a friend who is familiar with Pytorch to implement the Pytorch version. Please stay tuned.