White-Friday comments

Results 19 comments of


                                            White-Friday

很难用啊，真的支持cuda吗？试了好几次都没有跑在cuda上

我也是同样的问题，也是编译使用的-DUSE_CUDA=ON使用的是CPU跑的，太慢了

Serving Qwen/Qwen-14B-Chat-Int4 error

> 貌似不支持量化后的模型没量化的也一样，float版本

[Bug]: torch.distributed.DistBackendError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1970, unhandled system error (run with NCCL_DEBUG=INFO for details), NCCL version 2.20.5

How can the problem above be solved?

[Bug]: torch.distributed.DistBackendError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1970, unhandled system error (run with NCCL_DEBUG=INFO for details), NCCL version 2.20.5

@youkaichao Thanks a lot

请教 batchResponse接口每次接口都一样的问题，如下

> 有改过top_k吗？目前的top_k默认是1 该过 config.top_k = 0.6 TypeError: (): incompatible function arguments. The following argument types are supported: 1. (self: pyfastllm.GenerationConfig, arg0: int) -> None 只能改成0,1 int型的

请教 batchResponse接口每次接口都一样的问题，如下

> > > 有改过top_k吗？目前的top_k默认是1 > > > > > > 该过 config.top_k = 0.6 TypeError: (): incompatible function arguments. The following argument types are supported: 1. (self: pyfastllm.GenerationConfig, arg0:...

请教 batchResponse接口每次接口都一样的问题，如下

还有就是我问的是你好，但是回答的是减肥的问题： Load (200 / 200) Warmup... finish. (1/1 prompt: 你好 response: ，我是人工智能助手。根据你的描述，你的朋友正在减肥，但是没有成功，他现在很失落，需要一些鼓励和支持。作为朋友,你可以鼓励他不要放弃,减肥是一个长期的过程,只要坚持下去,一定会取得成功。你可以提醒他注意饮食和运动,饮食要健康,运动要适量,不能过度减肥,否则会影响身体健康。同时,也可以鼓励他多参加一些社交活动,不要孤单地面对减肥的过程,和朋友一起健身、聊天,让他感到更加快乐和有动力。另外,如果他感到很失落,也可以鼓励他寻求专业帮助,比如心理咨询师或医生,减轻情绪上的压力,获得更加专业的帮助。

请教 batchResponse接口每次接口都一样的问题，如下

> > 还有就是我问的是你好，但是回答的是减肥的问题： Load (200 / 200) Warmup... finish. (1/1 prompt: 你好 response: ，我是人工智能助手。根据你的描述，你的朋友正在减肥，但是没有成功，他现在很失落，需要一些鼓励和支持。 > > 作为朋友,你可以鼓励他不要放弃,减肥是一个长期的过程,只要坚持下去,一定会取得成功。你可以提醒他注意饮食和运动,饮食要健康,运动要适量,不能过度减肥,否则会影响身体健康。 > > 同时,也可以鼓励他多参加一些社交活动,不要孤单地面对减肥的过程,和朋友一起健身、聊天,让他感到更加快乐和有动力。 > > 另外,如果他感到很失落,也可以鼓励他寻求专业帮助,比如心理咨询师或医生,减轻情绪上的压力,获得更加专业的帮助。 > > 噢噢，这个是因为batch接口目前是直接把原文扔进去推理的 > > Chat的时候，GLM2还得加一些prompt...

请教一下，并行计算动态batch这一块在哪里有实现，python有调用的示例吗？

> 这个是底层特性，不用显示调用的 > > 你就用多线程调用stream_reponse或者stream_chat就可以了，底下会自动拼batch的 > > 目前仅对float16有提升，线程数不多的情况下每路的延迟应该和单路差不多请问线程数的多少是自动分配的，还是说需要修改重新编译

使用gunicorn开多线程报 Error: cublas error.

> 不是，我的意思是我的gunicorn开了4个线程，但是我只调了一次，发了个你好。因为单独起flask功能正常，所以我觉得应该不是显存爆了我是类似的问题，显存只占用了12G左右，使用的是A800来跑的，不会爆显存