Lun Zhongwang

Results 10 comments of Lun Zhongwang

@ztxz16 你好,请问这个已经解决了吗?我的16G显存,int8,输入长度2048,输出100,batch_size设置3就oom了。

> 嗯,之后会和generationConfig一起更新下 现在可以多线程调用stream_response或者stream_chat,内部会自动拼batch (目前只有fp16拼batch有收益) @ztxz16 你好,现在更新了吗?是batch推理在pyfastllm里面了吗?谢谢~

Transformer中的分解自注意力的计算那块。 另外有没有人使用多卡环境跑的时候,每个两个验证报torch.distributed.elastic.multiprocessing.api:failed(exitcode:-9)然后程序终止的呀?

代码中好像是没用drop_path,概率设置为0了我记得

As the paper mentioned, self-Extend do not support flash-attn.

Thanks for your reply, I'll try it later.

Except your code for seg based ADE20K dataset etc.

R.I.P