LongBench icon indicating copy to clipboard operation
LongBench copied to clipboard

针对 Paper中 Long数据集的评测配置

Open MaiziXiao opened this issue 11 months ago • 3 comments

vllm serve THUDM/glm-4-9b-chat --api-key token-abc123 --tensor-parallel-size 4 --gpu-memory-utilization 0.95 --max_model_len 131072 --trust-remote-code

README中启动服务时最长长度 128k,在 paper 中, Long 的数据集都大于 128k,麻烦给一下具体启动服务的命令和 rope的配置,我这里没法复现出 paper 里的 long 的指标

MaiziXiao avatar Jan 02 '25 08:01 MaiziXiao

你好,Long (>128k) 只是评测数据的一个subset,代表所有测试数据中长度大于 128k token 的数据集合。在所有数据上的评测我们都是用的--max_model_len 131072,对于超过 128k token 的序列作截断。

bys0318 avatar Jan 02 '25 08:01 bys0318

你好,Long (>128k) 只是评测数据的一个subset,代表所有测试数据中长度大于 128k token 的数据集合。在所有数据上的评测我们都是用的--max_model_len 131072,对于超过 128k token 的序列作截断。

image 数据集的介绍中数据集长度最长会到 2m,请问下

  1. 请问你们的截断方法,如果整体 prompt 被 vllm 的服务截断的话,如何确保指令和答案信息能够被保留?如果要截断至 128k,在提供数据时为什么不直接截断
  2. 针对不同模型的长文评测,分别用的什么配置?是否是用的 vllm 默认读取的模型config

MaiziXiao avatar Jan 02 '25 08:01 MaiziXiao

看了下 Paper,是从中间截断,请问这种方式如何确保 context 中的答案信息能够被保留?另外对于 Expert来说,看的是全文,对模型来说是截断的128k context,这里的比较是否会有diff

MaiziXiao avatar Jan 03 '25 02:01 MaiziXiao