fastllm issues

请教 batchResponse接口每次接口都一样的问题，如下

9

config = pyfastllm.GenerationConfig() config.temperature = 1.0 config.max_length = 32000 config.top_p = 0.8 修改了temperature依然一样， prompts = ["如何创建oracle的表空间", "如何创建oracle的表空间", "如何创建oracle的表空间", "如何创建oracle的表空间", "如何创建oracle的表空间", "如何创建oracle的表空间"] 回答的结果都是一样，一个字都不差

White-Friday

baichuan-7b模型推理会偶然报 Segmentation fault (core dumped) 挂掉

如题在A10（24G）推理在线等，挺急的，感谢回复！

yuanhuachao

请教,如何将ggml模型转换成flm格式?

如题

gaodianzhuo

vicuna模型乱回答问题。。。

2

fushengwuyu

nvcc fatal : Unsupported gpu architecture 'compute_native'

11

**make -j** 时候报错 ``` $ make -j [ 3%] Building CUDA object CMakeFiles/fastllm_tools.dir/src/devices/cuda/fastllm-cuda.cu.o [ 6%] Building CUDA object CMakeFiles/fastllm.dir/src/devices/cuda/fastllm-cuda.cu.o nvcc fatal : Unsupported gpu architecture 'compute_native' make[2]: *** [CMakeFiles/fastllm_tools.dir/src/devices/cuda/fastllm-cuda.cu.o] Error...

YerongLi

flm模型和glm2模型输出结果不一致

3

newsongwf

prompt 比较长时消耗显存很大

5

## 问题描述在使用 `4bit` 的 flm 模型后, 模型占用单卡显存 4G, 在输入 prompt 约 2000 字的情况下, 计算过程中总显存会逐渐增到 `16G 以上` 原 chatglm 在这种情况增加 2G 左右 ![截屏2023-07-11 15 55 21](https://github.com/ztxz16/fastllm/assets/39720357/86405811-5da9-43e3-94b2-d33a8c176e36) 不知道为什么中间积累的显存会有这么大区别 ### 测试样本 ```bash...

AlexRainHao

模型导出失败，hf上下载的flm模型可以正常在GPU上运行

1

开启cuda编译后进行模型导出，模型加载完成后进程被kill 模型加载完成后显存占用没上升。 ![QQ截图20230710124218](https://github.com/ztxz16/fastllm/assets/79994846/3b2605ab-ba43-4319-8fe3-bf6f33575a8b) hf上下载flm模型运行正常且运行在GPU上。 ![QQ截图20230710124543](https://github.com/ztxz16/fastllm/assets/79994846/11415dc4-f8fe-4875-89d3-9f97f3a95097)

BJFQHSM