orangeice
orangeice
## 使用纯C++推理 感谢之前的工作: [Llama.cpp](https://github.com/ggerganov/llama.cpp) 、 [Alpaca.cpp](https://github.com/antimatter15/alpaca.cpp), 请注意 - 这里的步骤应该在你训练完了lora再进行. - 合并后的checkpoint对于7B模型大概消耗13G磁盘空间,对于13B模型大概消耗37G, 30B和65B由于我们有限的设备条件没有测试. 注意在转换过程中会消耗很大的内存 ( 比如13B可能超过64G,但你可以通过提高swap空间解决 ) - 另外, 7B,13B,30B,65B的checkpoint分别默认被分成1,2,4,8片 ( 这也是cpp里边固定的设置 ) [update readme](https://github.com/Facico/Chinese-Vicuna/commit/50800e77f7ddfb80a012ba142f20bf6f373f2cff) 1.首先,你需要将你的lora参数与原始模型合并,并将它们转换为`ggml`格式,用于cpp推理。 [merge changes for cpp inference](https://github.com/Facico/Chinese-Vicuna/commit/d5e47d984c6a9d7e815136bd52a0e0848c10f277)...