针对 Paper中 Long数据集的评测配置
vllm serve THUDM/glm-4-9b-chat --api-key token-abc123 --tensor-parallel-size 4 --gpu-memory-utilization 0.95 --max_model_len 131072 --trust-remote-code
README中启动服务时最长长度 128k,在 paper 中, Long 的数据集都大于 128k,麻烦给一下具体启动服务的命令和 rope的配置,我这里没法复现出 paper 里的 long 的指标
你好,Long (>128k) 只是评测数据的一个subset,代表所有测试数据中长度大于 128k token 的数据集合。在所有数据上的评测我们都是用的--max_model_len 131072,对于超过 128k token 的序列作截断。
你好,Long (>128k) 只是评测数据的一个subset,代表所有测试数据中长度大于 128k token 的数据集合。在所有数据上的评测我们都是用的
--max_model_len 131072,对于超过 128k token 的序列作截断。
数据集的介绍中数据集长度最长会到 2m,请问下
- 请问你们的截断方法,如果整体 prompt 被 vllm 的服务截断的话,如何确保指令和答案信息能够被保留?如果要截断至 128k,在提供数据时为什么不直接截断
- 针对不同模型的长文评测,分别用的什么配置?是否是用的 vllm 默认读取的模型config
看了下 Paper,是从中间截断,请问这种方式如何确保 context 中的答案信息能够被保留?另外对于 Expert来说,看的是全文,对模型来说是截断的128k context,这里的比较是否会有diff