LongBench 针对 Paper中 Long数据集的评测配置

vllm serve THUDM/glm-4-9b-chat --api-key token-abc123 --tensor-parallel-size 4 --gpu-memory-utilization 0.95 --max_model_len 131072 --trust-remote-code

README中启动服务时最长长度 128k，在 paper 中, Long 的数据集都大于 128k，麻烦给一下具体启动服务的命令和 rope的配置，我这里没法复现出 paper 里的 long 的指标

Jan 02 '25 08:01 MaiziXiao

你好，Long (>128k) 只是评测数据的一个subset，代表所有测试数据中长度大于 128k token 的数据集合。在所有数据上的评测我们都是用的--max_model_len 131072，对于超过 128k token 的序列作截断。

Jan 02 '25 08:01 bys0318

你好，Long (>128k) 只是评测数据的一个subset，代表所有测试数据中长度大于 128k token 的数据集合。在所有数据上的评测我们都是用的--max_model_len 131072，对于超过 128k token 的序列作截断。

数据集的介绍中数据集长度最长会到 2m，请问下

请问你们的截断方法，如果整体 prompt 被 vllm 的服务截断的话，如何确保指令和答案信息能够被保留？如果要截断至 128k，在提供数据时为什么不直接截断
针对不同模型的长文评测，分别用的什么配置？是否是用的 vllm 默认读取的模型config

Jan 02 '25 08:01 MaiziXiao

看了下 Paper，是从中间截断，请问这种方式如何确保 context 中的答案信息能够被保留？另外对于 Expert来说，看的是全文，对模型来说是截断的128k context，这里的比较是否会有diff

Jan 03 '25 02:01 MaiziXiao