Dogvane Huang
Dogvane Huang
多卡的推理上,会有性能提升吗? 单卡8G 用INT8 多卡用 FP16
试试 mc 或者 ml 命令,限制一下输出的长度。
中文通常用 zh
感觉是 transformers 的问题,无法本地加载,可以试试下面的代码。 from pathlib import Path modelFile = 'G:\\\\GPT\\\\ChatGLM2-6B\\\\cache\\\\chatglm2-6b-int4' mf = Path(modelFile) tokenizer = AutoTokenizer.from_pretrained(mf, trust_remote_code=True) model = AutoModel.from_pretrained(mf, trust_remote_code=True).cuda() 相对路径也能用 modelFile = './cache/chatglm2-6b-int4'
要不降一个版本到117再试试
我用2080ti 22g,能跑lora,wsl下跑,显存占用是15G,但是cuda暂时没能跑满。
看了llama.cpp里关于模板的代码,在使用上,能开放给外部使用的空间和灵活度还是不够,特别是它内部未实现的模型。 并且,目前一个新模型,必定会存在与之对应着它的一个模板方案。 我的想法是,在llamaSharp的基础上,针对不同的模型,增加一个自定义包,例如:LlamaSharp.Phi3 LlamaSharp.Qwen 等。 包里继承了模型的下载(基于huggingface.co)针对它的模型文本的配置,以及返回结果的一些个性操作。 After reviewing the template code in llama.cpp, I found that the space and flexibility for external use are still insufficient, particularly for the internally...