LLMPruner
LLMPruner copied to clipboard
我看到关闭的issues中有一个关于如何生成自定义词表的问题,我尝试按照其中提到的方法自己裁剪原生bloom的词表,遇到了以下的问题: 1. 按造[samsha1971]提供的代码,报错: 这个应该是merges属性导致的问题 2. 如果将t["model"]["merges"] = [] 设置为空,encode的结果也为空; 所以想请问,手动重构词表怎么处理这些问题?
中文词显示乱码
请问tokenizer.json中vocab部分中文显示都是乱码,如何可以正常显示和读取呢? "æ¸¡æ±Ł": 42789
词表相关
非常感谢您的开源工作!请问如果要从自己的语料上构建全新的词表,具体的流程应该有哪些?
 请问一下,安卓官方的代码对 bloom7b 进行词向量裁剪,但是得到的模型大小比官方的结果大
请问这个项目支持72B的大模型剪枝吗