White-Friday
White-Friday
我也是同样的问题,也是编译使用的-DUSE_CUDA=ON使用的是CPU跑的,太慢了
> 貌似不支持量化后的模型 没量化的也一样,float版本
How can the problem above be solved?
@youkaichao Thanks a lot
> 有改过top_k吗? 目前的top_k默认是1 该过 config.top_k = 0.6 TypeError: (): incompatible function arguments. The following argument types are supported: 1. (self: pyfastllm.GenerationConfig, arg0: int) -> None 只能改成0,1 int型的
> > > 有改过top_k吗? 目前的top_k默认是1 > > > > > > 该过 config.top_k = 0.6 TypeError: (): incompatible function arguments. The following argument types are supported: 1. (self: pyfastllm.GenerationConfig, arg0:...
还有就是我问的是你好,但是回答的是减肥的问题: Load (200 / 200) Warmup... finish. (1/1 prompt: 你好 response: ,我是人工智能助手。 根据你的描述,你的朋友正在减肥,但是没有成功,他现在很失落,需要一些鼓励和支持。 作为朋友,你可以鼓励他不要放弃,减肥是一个长期的过程,只要坚持下去,一定会取得成功。你可以提醒他注意饮食和运动,饮食要健康,运动要适量,不能过度减肥,否则会影响身体健康。 同时,也可以鼓励他多参加一些社交活动,不要孤单地面对减肥的过程,和朋友一起健身、聊天,让他感到更加快乐和有动力。 另外,如果他感到很失落,也可以鼓励他寻求专业帮助,比如心理咨询师或医生,减轻情绪上的压力,获得更加专业的帮助。
> > 还有就是我问的是你好,但是回答的是减肥的问题: Load (200 / 200) Warmup... finish. (1/1 prompt: 你好 response: ,我是人工智能助手。 根据你的描述,你的朋友正在减肥,但是没有成功,他现在很失落,需要一些鼓励和支持。 > > 作为朋友,你可以鼓励他不要放弃,减肥是一个长期的过程,只要坚持下去,一定会取得成功。你可以提醒他注意饮食和运动,饮食要健康,运动要适量,不能过度减肥,否则会影响身体健康。 > > 同时,也可以鼓励他多参加一些社交活动,不要孤单地面对减肥的过程,和朋友一起健身、聊天,让他感到更加快乐和有动力。 > > 另外,如果他感到很失落,也可以鼓励他寻求专业帮助,比如心理咨询师或医生,减轻情绪上的压力,获得更加专业的帮助。 > > 噢噢,这个是因为batch接口目前是直接把原文扔进去推理的 > > Chat的时候,GLM2还得加一些prompt...
> 这个是底层特性,不用显示调用的 > > 你就用多线程调用stream_reponse或者stream_chat就可以了,底下会自动拼batch的 > > 目前仅对float16有提升,线程数不多的情况下每路的延迟应该和单路差不多 请问线程数的多少是自动分配的,还是说需要修改重新编译
> 不是,我的意思是我的gunicorn开了4个线程,但是我只调了一次,发了个你好。因为单独起flask功能正常,所以我觉得应该不是显存爆了 我是类似的问题,显存只占用了12G左右,使用的是A800来跑的,不会爆显存