fastllm
fastllm copied to clipboard
纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
python代码直接加载模型调用  Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Loading checkpoint shards:...
跑完query以后报错 CUDA error when release memory, 求助 Error: CUDA error when release memory! CUDA error = 4, cudaErrorCudartUnloading at fastllm/src/devices/cuda/fastllm-cuda.cu:1493 'driver shutting down'
和之前很多issue一样的问题 Qwen-7B-Chat,fastllm加速,无论是fp16还是int8,都有prompt会出现重复输出停不下来的情况,不加速是正常的 我的环境 A6000,torch2.0.1,cuda11.8,最新的fastllm代码 停不下来的prompt:如何使用python的selenium将网页保存为pdf 
M2处理器是不支持吗
pyfastllm下readme里的 cd pyfastllm python build_libs --cuda python cli.py -p chatglm-6b-int8.bin -t 8 无法执行 使用install.sh中的脚本或直接python setup.py也无法安装,
加速看不到效果反而更慢
尝试了chatglm 和baichuan 使用fastllm后速度反而更慢
chatglm2微调后的模型能加速 并且部署吗
Hello, I hope this message finds you well. I am writing to kindly request your support for the Ascend series of graphics cards in your project. As you may be...
使用cli_thread.py代码,输入问题后会报错:Segmentation fault (core dumped) 将response中的prompt_input经过makeInput处理后仍然不行。 已经尝试使用ChatGLM2-6b, 百川以及Alpaca13B