fastllm
fastllm copied to clipboard
纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
config = pyfastllm.GenerationConfig() config.temperature = 1.0 config.max_length = 32000 config.top_p = 0.8 修改了temperature依然一样, prompts = ["如何创建oracle的表空间", "如何创建oracle的表空间", "如何创建oracle的表空间", "如何创建oracle的表空间", "如何创建oracle的表空间", "如何创建oracle的表空间"] 回答的结果都是一样,一个字都不差
如题 在A10(24G)推理 在线等,挺急的,感谢回复!
**make -j** 时候报错 ``` $ make -j [ 3%] Building CUDA object CMakeFiles/fastllm_tools.dir/src/devices/cuda/fastllm-cuda.cu.o [ 6%] Building CUDA object CMakeFiles/fastllm.dir/src/devices/cuda/fastllm-cuda.cu.o nvcc fatal : Unsupported gpu architecture 'compute_native' make[2]: *** [CMakeFiles/fastllm_tools.dir/src/devices/cuda/fastllm-cuda.cu.o] Error...
## 问题描述 在使用 `4bit` 的 flm 模型后, 模型占用单卡显存 4G, 在输入 prompt 约 2000 字的情况下, 计算过程中总显存会逐渐增到 `16G 以上` 原 chatglm 在这种情况增加 2G 左右  不知道为什么中间积累的显存会有这么大区别 ### 测试样本 ```bash...
开启cuda编译后进行模型导出,模型加载完成后进程被kill 模型加载完成后显存占用没上升。  hf上下载flm模型运行正常且运行在GPU上。 
 使用英文提问时可以得到正确回答 但使用中文提问则会答非所问