fastllm icon indicating copy to clipboard operation
fastllm copied to clipboard

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行

Results 170 fastllm issues
Sort by recently updated
recently updated
newest added

config = pyfastllm.GenerationConfig() config.temperature = 1.0 config.max_length = 32000 config.top_p = 0.8 修改了temperature依然一样, prompts = ["如何创建oracle的表空间", "如何创建oracle的表空间", "如何创建oracle的表空间", "如何创建oracle的表空间", "如何创建oracle的表空间", "如何创建oracle的表空间"] 回答的结果都是一样,一个字都不差

如题 在A10(24G)推理 在线等,挺急的,感谢回复!

**make -j** 时候报错 ``` $ make -j [ 3%] Building CUDA object CMakeFiles/fastllm_tools.dir/src/devices/cuda/fastllm-cuda.cu.o [ 6%] Building CUDA object CMakeFiles/fastllm.dir/src/devices/cuda/fastllm-cuda.cu.o nvcc fatal : Unsupported gpu architecture 'compute_native' make[2]: *** [CMakeFiles/fastllm_tools.dir/src/devices/cuda/fastllm-cuda.cu.o] Error...

## 问题描述 在使用 `4bit` 的 flm 模型后, 模型占用单卡显存 4G, 在输入 prompt 约 2000 字的情况下, 计算过程中总显存会逐渐增到 `16G 以上` 原 chatglm 在这种情况增加 2G 左右 ![截屏2023-07-11 15 55 21](https://github.com/ztxz16/fastllm/assets/39720357/86405811-5da9-43e3-94b2-d33a8c176e36) 不知道为什么中间积累的显存会有这么大区别 ### 测试样本 ```bash...

开启cuda编译后进行模型导出,模型加载完成后进程被kill 模型加载完成后显存占用没上升。 ![QQ截图20230710124218](https://github.com/ztxz16/fastllm/assets/79994846/3b2605ab-ba43-4319-8fe3-bf6f33575a8b) hf上下载flm模型运行正常且运行在GPU上。 ![QQ截图20230710124543](https://github.com/ztxz16/fastllm/assets/79994846/11415dc4-f8fe-4875-89d3-9f97f3a95097)

![1](https://github.com/ztxz16/fastllm/assets/7625230/deb7cd50-ce5b-43f4-b3e8-b63b803c8bf9) 使用英文提问时可以得到正确回答 但使用中文提问则会答非所问