stranger comments

Results 18 comments of


                                            stranger

[Help] 是否支持多进程部署

我是Django + gunicorn部署的，原先gunicorn配置的workers=1，发现只能同时响应一个请求。设置 workers = 2 的时候，就能并发2个请求了，但是显存也会翻倍。如果要支持高并发的话感觉就很费显卡了

百川模型转换问题

> 这个百川的SFT模型代码结构好像改掉了，现在可能转不了了 > > 有段时间没关注了.. 不知道现在百川现在哪个SFT模型效果比较好 > > 我是想等官方的Chat模型出来之后再转个模型传huggingface @ztxz16 百川13B出来了，官方也放出来chat版本了 https://github.com/baichuan-inc/Baichuan-13B

> > > 这个百川的SFT模型代码结构好像改掉了，现在可能转不了了 > > > 有段时间没关注了.. 不知道现在百川现在哪个SFT模型效果比较好 > > > 我是想等官方的Chat模型出来之后再转个模型传huggingface > > > > > > @ztxz16 百川13B出来了，官方也放出来chat版本了 https://github.com/baichuan-inc/Baichuan-13B > > 嗯嗯，目前chat版本应该可以跑了，就是转模型的时候对内存要求比较高我有2张40G显存的A100，执行 `python3 tools/baichuan2flm.py baichuan-fp32.flm` 去转换...

百川模型转换问题

用-DUSE_CUDA=OFF编译之后，量化成功了，得到了一个baichuan-int4.flm文件。但是推理的时候报错`Segmentation fault (core dumped)` ``` from fastllm_pytools import llm model_path = '/home/user/code/build/cbaichuan-int4.flm' model = llm.model(model_path) for response in model.stream_response('你好'): print(response, flush=True, end="") ```

关掉Lora微调大模型，模型并行训练报错：Expected all tensors to be on the same device, but found at least two devices, cuda:3 and cuda:0!

在推理的时候和你报一样的错，我在引入torch之后，设置默认`tensor_type`就没报错了。 ``` import torch torch.set_default_tensor_type('torch.cuda.FloatTensor') ```

使用多GPU部署之后，和原始模型推理速度持平了，无加速效果了？

哦，我用的是A100,40G

web_demo_belle生成结果时有大段重复的问题

俺也一样！咋搞啊。我用你的开源模型没问题。我是自己准备的很小量的数据集： ``` {"context": "指令: 你叫什么名字\n答案: ", "target": "你好，我叫小帅，来自火星"} {"context": "指令: 你的名字\n答案: ", "target": "你好，我的名字是小帅，来自火星"} {"context": "指令: 你是谁\n答案: ", "target": "你好，我是小帅，来自火星"} {"context": "指令: 你来自哪里\n答案: ", "target": "你好，我是小帅，来自火星"} {"context": "指令: 你从哪里来\n答案: ",...