苏剑林(Jianlin Su) comments

Results 390 comments of


                                            苏剑林(Jianlin Su)

ValueError: Failed to count ngrams by KenLM.

那就自己重新编译count_ngrams。

paper link has been redirected

the correct link is http://aclweb.org/anthology/D17-1111

转换成 sentencepiece 的之后载入失败

转换前的模型方便共享吗？或者给一个最小的复现代码？

转换成 sentencepiece 的之后载入失败

@yzlnew 看上去你不是ensure_unicode版本？只有ensure_unicode版本的模型才保证能顺利转换成sentencepiece（在较新的版本中，ensure_unicode默认是开启的，你可以检查一下）

tokenizer压缩率与模型最终效果的关系

我暂时没这个算力去做这个比较实验... 但是从压缩就是智能的信仰来说，高压速率就等价于效果好（至少对于LLM来说）

安装遇到的问题并解决办法

非常感谢，已经很多年没有windows开发经验了😂

弱问下训练一个tokenizer的训练目标是什么？

同等vocab_size时压缩率最高。

不支持指定special_token吗？

个人认为这不是一个tokenizer该做的事情，tokenizer的作用就是对原始字节串进行切分，这种特殊需求可以自行包装一层。

大数据量训练的时候卡住

系统内存多大呢？以及Trainer的参数是多少？

PyTorch implement

Sorry, I'm not familiar with Pytorch. However, I am inviting a friend who is familiar with Pytorch to implement the Pytorch version. Please stay tuned.