Baichuan-7B
Baichuan-7B copied to clipboard
模型词表相关疑问
您好,感谢开源!想针对本模型的词表构建和测试咨询三个问题:
- 请问词表是基于什么数据进行训练的?可否提供一些训练细节,比如中英文,或其他语言的数据占比?
- 请问压缩率指标是在什么语料上测试的?这部分的评测脚本可否公开?
- 您在分词部分第三点提到的,“对罕见字词的全覆盖”,是指sentence piece的byte_fallback参数吗? 盼回复!
同问,请问压缩率是如何计算的?
同问,以及为什么没直接使用BBPE进行训练,将2000万文本全部转为Byte再做BPE?
2000万文本要训练多长时间啊?自己复现感觉用bpe要跑好久QAQ
同问同问
同问