WCwalker
WCwalker
> 以Dynamic-NTK的方式外推为例,你可以在config.json文件中设置"rope_scaling": {"type": "dynamic", "factor": 4.0}, 参考这里的代码:[https://github.com/huggingface/transformers/blob/b382a09e28c7e59129246ccdf4b00f2cac4547a4/src/transformers/models/llama/modeling_llama.py#L293。](https://github.com/huggingface/transformers/blob/b382a09e28c7e59129246ccdf4b00f2cac4547a4/src/transformers/models/llama/modeling_llama.py#L293%E3%80%82) 你还可以通过[LEval](https://github.com/OpenLMLab/LEval)进行测试 能不能请问一下,这个外推对显存的占用怎么样,有没有数据可以参考一下,感谢
另外补充一下:我在lmdeploy 0.2.4+环境 可以运行qwen1.5-32B-chat,但是model name要设置为qwen-14;但是在运行期间如果传入tokens 大于一定数量(没有做统计,可能就3k),容易出现"length"错误,返回空值,就算是session len 设置为8192 也是一样,好像没有起作用
 想请教的是这一段描述我应该去哪里找对应的代码,然后把我这边提示词的内容填充进去
我也遇到这个问题,我是直接用千问提供的qwen1.5-14-chat-awq模型,想请问一下能不能通过牺牲一些精度,实现至少双T4卡部署,谢谢
epoch 你调到60,想问问,你觉得loss下降到多少才符合你的预期,我这边一般10以内感觉就训练不动了