LLMPruner issues

自定义词表问题

我看到关闭的issues中有一个关于如何生成自定义词表的问题，我尝试按照其中提到的方法自己裁剪原生bloom的词表，遇到了以下的问题： 1. 按造[samsha1971]提供的代码，报错：这个应该是merges属性导致的问题 2. 如果将t["model"]["merges"] = [] 设置为空，encode的结果也为空；所以想请问，手动重构词表怎么处理这些问题？

18140663659

中文词显示乱码

2

请问tokenizer.json中vocab部分中文显示都是乱码，如何可以正常显示和读取呢？ "æ¸¡æ±Ł": 42789

LeiShenVictoria

词表相关

3

非常感谢您的开源工作！请问如果要从自己的语料上构建全新的词表，具体的流程应该有哪些？

maojinyang

size issue

2

![image](https://user-images.githubusercontent.com/8647168/231344264-53261812-f023-441d-9a93-f9d491e750ed.png) 请问一下，安卓官方的代码对 bloom7b 进行词向量裁剪，但是得到的模型大小比官方的结果大

minghsuanwu