Baichuan-7B icon indicating copy to clipboard operation
Baichuan-7B copied to clipboard

模型词表相关疑问

Open zetian1025 opened this issue 1 year ago • 5 comments

您好,感谢开源!想针对本模型的词表构建和测试咨询三个问题:

  1. 请问词表是基于什么数据进行训练的?可否提供一些训练细节,比如中英文,或其他语言的数据占比?
  2. 请问压缩率指标是在什么语料上测试的?这部分的评测脚本可否公开?
  3. 您在分词部分第三点提到的,“对罕见字词的全覆盖”,是指sentence piece的byte_fallback参数吗? 盼回复!

zetian1025 avatar Jun 15 '23 06:06 zetian1025

同问,请问压缩率是如何计算的?

feiyu87yeah avatar Jun 15 '23 06:06 feiyu87yeah

同问,以及为什么没直接使用BBPE进行训练,将2000万文本全部转为Byte再做BPE?

mynewstart avatar Jun 16 '23 04:06 mynewstart

2000万文本要训练多长时间啊?自己复现感觉用bpe要跑好久QAQ

luliyucoordinate avatar Jun 16 '23 10:06 luliyucoordinate

同问同问

zemu121 avatar Jul 07 '23 03:07 zemu121

同问

JayLee15 avatar Aug 23 '23 03:08 JayLee15