fastllm
fastllm copied to clipboard
多并发胡言乱语
ftllm serve Qwen2.5-72B-Instruct-AWQ --device multicuda:0,1 --moe_device numa --model_name="Qwen2.5-72B-Instruct-AWQ" --think THINK,启动命令是这个
解决了吗?
解决了吗?
还没有,之前主要在处理GGUF的兼容,看起来是多卡dense模型有bug,正在看