stranger

Results 18 comments of stranger

我是Django + gunicorn部署的,原先gunicorn配置的workers=1,发现只能同时响应一个请求。 设置 workers = 2 的时候,就能并发2个请求了,但是显存也会翻倍。如果要支持高并发的话感觉就很费显卡了

+1,相同的提问回答的内容都是一样的。

> 这个百川的SFT模型代码结构好像改掉了,现在可能转不了了 > > 有段时间没关注了.. 不知道现在百川现在哪个SFT模型效果比较好 > > 我是想等官方的Chat模型出来之后再转个模型传huggingface @ztxz16 百川13B出来了,官方也放出来chat版本了 https://github.com/baichuan-inc/Baichuan-13B

> > > 这个百川的SFT模型代码结构好像改掉了,现在可能转不了了 > > > 有段时间没关注了.. 不知道现在百川现在哪个SFT模型效果比较好 > > > 我是想等官方的Chat模型出来之后再转个模型传huggingface > > > > > > @ztxz16 百川13B出来了,官方也放出来chat版本了 https://github.com/baichuan-inc/Baichuan-13B > > 嗯嗯,目前chat版本应该可以跑了,就是转模型的时候对内存要求比较高 我有2张40G显存的A100,执行 `python3 tools/baichuan2flm.py baichuan-fp32.flm` 去转换...

用-DUSE_CUDA=OFF编译之后,量化成功了,得到了一个baichuan-int4.flm文件。 但是推理的时候报错`Segmentation fault (core dumped)` ``` from fastllm_pytools import llm model_path = '/home/user/code/build/cbaichuan-int4.flm' model = llm.model(model_path) for response in model.stream_response('你好'): print(response, flush=True, end="") ```

在推理的时候和你报一样的错,我在引入torch之后,设置默认`tensor_type`就没报错了。 ``` import torch torch.set_default_tensor_type('torch.cuda.FloatTensor') ```

俺也一样!咋搞啊。我用你的开源模型没问题。我是自己准备的很小量的数据集: ``` {"context": "指令: 你叫什么名字\n答案: ", "target": "你好,我叫小帅,来自火星"} {"context": "指令: 你的名字\n答案: ", "target": "你好,我的名字是小帅,来自火星"} {"context": "指令: 你是谁\n答案: ", "target": "你好,我是小帅,来自火星"} {"context": "指令: 你来自哪里\n答案: ", "target": "你好,我是小帅,来自火星"} {"context": "指令: 你从哪里来\n答案: ",...