wanshichenguang
wanshichenguang
我使用fd加载uie模型也有这个问题
> @jiangjiajun 现在的部署方式是fastdeploy + triton 服务化部署 ,并发等各方面都很好的解决了,就是没办法释放gpu,子进程启动模型后释放,这种只适合跑批,不太适合常驻高并发的server模式吧。。。 子进程是可以解决,现在已经转onnx使用了
I have the same problem: use llama_factory to have a lora. export model: # Note: DO NOT use quantized model or quantization_bit when merging lora adapters # model model_name_or_path: /hy-tmp/model/qwen/Qwen1___5-7B-Chat...
(llama.cpp) root@8411db7a5b9f:~/llama.cpp-master# make --version GNU Make 4.3 Built for x86_64-pc-linux-gnu Copyright (C) 1988-2020 Free Software Foundation, Inc. License GPLv3+: GNU GPL version 3 or later This is free software: you...
它的配置文件不能照抄,这里说dump_format只实现了两种格式的输出:conll和jsonline,,给的配置文件里面是column
qwen官方更新的太慢
不如希望chatglm.cpp可以支持qwen,官方的也没怎么更新
同问,llama.cpp的转换脚本好像不能正常转化
我也遇到了同样的问题,生成的配置文件不匹配,把旧的配置文件复制过去,但是输出很混乱,这个怎么解决的
码过期了