ztxz16

Results 137 comments of ztxz16

目前只写了这个功能,还没优化好 (另外这是什么卡.. 怎么原始模型都可以跑到100tokens / s)

有可能是fastllm默认的激活参数是float32(可以--atype float16来设置),fastllm跑llama3首token推理出的logits应该和transformers误差很小,1e-4级别的,不过连续采样多个token之后可能后面误差放大的 不过dtype float16在数据集上测试精度都是没有下降的

这个提示有点问题,可以参照 https://github.com/ztxz16/fastllm/blob/master/docs/faq.md#ftllm%E6%8A%A5%E9%94%99 看能不能解决

有装过cuda吗? nvcc --version能看到吗

There are generally two reasons: 1. A conflict with the environment—you can try creating a new empty virtual environment and reinstalling. 2. The model was not downloaded completely.

> 之前出现以上错误,可以通过-DCUDA_NO_TENSOR_CORE=ON选项编译通过,今天更新最新代码后,还是报同样错误,加上该选项也不管用,请问如何解决这个类型转换的错误? 应该修复了 顺便问一下是什么显卡

> 我刚更新了最新代码,加上CUDA_NO_TENSOR_CORE的选项可以编译过了,我的是A100,cuda是12.4的,为什么不叫CUDA_NO_TENSOR_CORE编译不过呢? 有时候是检测显卡架构有问题,不知道为啥会这样.. 也可以加一个-DCUDA_ARCH=80手动指定架构

--lora xxx(peft完save的路径,目前只支持transformer格式的)

> 我加载了自己的adapter,提示lora需要F32的报错,不知道如何解决? 是我的问题.. 你的lora是什么dtype的,目前只写了加载Float32的lora, 稍后我改一下

> 2024-09-26 17:08:51,142 1106 server.py[line:72] INFO: Namespace(path='/root/autodl-tmp/Qwen2-7B-Instruct', threads=16, low=False, dtype='float32', atype='float16', cuda_embedding=True, kv_cache_limit='auto', max_batch=-1, device='cuda', custom='', lora='/root/autodl-tmp/qwen_out/checkpoints/checkpoint-900', model_name='Qwen2-7B-Instruct', host='0.0.0.0', port=8000) FastLLM Error: Lora error: lora's dtype should be F32. terminate...