krator comments

Results 6 comments of


krator

支持32768上下文长度，但是输入tokens4k左右就有oom的错误，请问有这个情况的吗？怎么解决？

输入token越多用越多的显存。14B无量化大概要28G左右显存，以我自己的环境来说，32G的显存这个时候只能支持到2K左右

部署了Qwen1.5-32B-Chat-GPTQ-Int4可以运行，但出现了CUDA extension not installed，推理速度很慢

重新安装auto-gptq，optimum，注意auto-gptq根据你的cuda版本选择对应的安装方式

使用vllm部署qwen1.5-32b-gptq-int4输出token为0

met the same problem

如果一个模型仓库里面只改了一个小文件，是不是整个仓库都重新下载？

补充，通义千问1.5的所有模型仓库目前似乎都是master的，没有版本号revision，无法通过revision控制

如果一个模型仓库里面只改了一个小文件，是不是整个仓库都重新下载？

> 目前只会增量更新有更新的文件，如果所有文件都下载是非预期行为，可以把tokenizer.json删除后再执行下，看下是否能复现。 > > 版本问题是由于模型官方提供者没有打版本导致，我们沟通下对比试验过，应该是我本地文件的问题。另：我有时候会在一台机器上下载好模型，然后传到另一台机器上做微调和推理，有的时候目标机上也是无法识别，会去执行新的下载任务的（已经排除了Qwen1.5和Qwen1___5的这个问题）。

deepspeed不支持断点续训？

文档中对 save_only_model 这个参数的解释是，使用了 deepspeed 就设置成True，那就是只要用了deepspeed就不保存断点续训所需要的状态？