ztxz16 comments

Results 137 comments of


                                            ztxz16

使用多GPU部署之后，和原始模型推理速度持平了，无加速效果了？

目前只写了这个功能，还没优化好（另外这是什么卡.. 怎么原始模型都可以跑到100tokens / s）

模型权重转化之后和原来的模型回答的内容不一致

有可能是fastllm默认的激活参数是float32（可以--atype float16来设置），fastllm跑llama3首token推理出的logits应该和transformers误差很小，1e-4级别的，不过连续采样多个token之后可能后面误差放大的不过dtype float16在数据集上测试精度都是没有下降的

Load fastllm failed. (Try install cuda-12)

这个提示有点问题，可以参照 https://github.com/ztxz16/fastllm/blob/master/docs/faq.md#ftllm%E6%8A%A5%E9%94%99 看能不能解决

Load fastllm failed. (Try install cuda-12)

有装过cuda吗？ nvcc --version能看到吗

How to resolve Segment fault?

There are generally two reasons: 1. A conflict with the environment—you can try creating a new empty virtual environment and reinstalling. 2. The model was not downloaded completely.

error: no suitable user-defined conversion from "half" to "nv_bfloat16" exists

> 之前出现以上错误，可以通过-DCUDA_NO_TENSOR_CORE=ON选项编译通过，今天更新最新代码后，还是报同样错误，加上该选项也不管用，请问如何解决这个类型转换的错误？应该修复了顺便问一下是什么显卡

error: no suitable user-defined conversion from "half" to "nv_bfloat16" exists

> 我刚更新了最新代码，加上CUDA_NO_TENSOR_CORE的选项可以编译过了，我的是A100,cuda是12.4的，为什么不叫CUDA_NO_TENSOR_CORE编译不过呢？有时候是检测显卡架构有问题，不知道为啥会这样.. 也可以加一个-DCUDA_ARCH=80手动指定架构

如何通过参数方式直接加载adapter?

--lora xxx（peft完save的路径，目前只支持transformer格式的）

如何通过参数方式直接加载adapter?

> 我加载了自己的adapter，提示lora需要F32的报错，不知道如何解决？是我的问题.. 你的lora是什么dtype的，目前只写了加载Float32的lora, 稍后我改一下

> 2024-09-26 17:08:51,142 1106 server.py[line:72] INFO: Namespace(path='/root/autodl-tmp/Qwen2-7B-Instruct', threads=16, low=False, dtype='float32', atype='float16', cuda_embedding=True, kv_cache_limit='auto', max_batch=-1, device='cuda', custom='', lora='/root/autodl-tmp/qwen_out/checkpoints/checkpoint-900', model_name='Qwen2-7B-Instruct', host='0.0.0.0', port=8000) FastLLM Error: Lora error: lora's dtype should be F32. terminate...