lmdeploy icon indicating copy to clipboard operation
lmdeploy copied to clipboard

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling

Open yuanjie-ai opened this issue 2 years ago • 3 comments

Motivation

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling

Related resources

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling

Additional context

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling

yuanjie-ai avatar Sep 19 '23 03:09 yuanjie-ai

在用 deploy.py 把 qwen-7b 转成 turbomind 要求的权重格式之后,会生成一个配置文件,路径是 workspace/triton_models/weights/config.ini。

把这个配置文件中几个配置项修改为:

max_position_embeddings = 2048
use_dynamic_ntk = 1
use_logn_attn = 1

就能开启外推能力。可以支持到 8K 长度的对话

lvhan028 avatar Sep 25 '23 03:09 lvhan028

@lvhan028 hello,感谢你的指导,我再llama2-70B上使用ntk,发现8K的长度是ok的,但是再长,比如到16k,就会有乱码了,请问这个问题怎么处理,使用q_scaling吗?

sjzhou4 avatar Sep 25 '23 10:09 sjzhou4

在用 deploy.py 把 qwen-7b 转成 turbomind 要求的权重格式之后,会生成一个配置文件,路径是 workspace/triton_models/weights/config.ini。

把这个配置文件中几个配置项修改为:

max_position_embeddings = 2048
use_dynamic_ntk = 1
use_logn_attn = 1

就能开启外推能力。可以支持到 8K 长度的对话

qwen-7b 8K以上能支持吗?比如32k

zhongjiyongshi avatar Nov 14 '23 07:11 zhongjiyongshi