lmdeploy 支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling

Motivation

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling

Related resources

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling

Additional context

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling

Sep 19 '23 03:09 yuanjie-ai

在用 deploy.py 把 qwen-7b 转成 turbomind 要求的权重格式之后，会生成一个配置文件，路径是 workspace/triton_models/weights/config.ini。

把这个配置文件中几个配置项修改为：

max_position_embeddings = 2048
use_dynamic_ntk = 1
use_logn_attn = 1

就能开启外推能力。可以支持到 8K 长度的对话

Sep 25 '23 03:09 lvhan028

@lvhan028 hello，感谢你的指导，我再llama2-70B上使用ntk，发现8K的长度是ok的，但是再长，比如到16k，就会有乱码了，请问这个问题怎么处理，使用q_scaling吗？

Sep 25 '23 10:09 sjzhou4

在用 deploy.py 把 qwen-7b 转成 turbomind 要求的权重格式之后，会生成一个配置文件，路径是 workspace/triton_models/weights/config.ini。

把这个配置文件中几个配置项修改为：
max_position_embeddings = 2048
use_dynamic_ntk = 1
use_logn_attn = 1
就能开启外推能力。可以支持到 8K 长度的对话

qwen-7b 8K以上能支持吗？比如32k

Nov 14 '23 07:11 zhongjiyongshi