z-bench 大模型的输出都是 probabilistic。建议每个问题多跑几次，更科学！

大模型的输出都是 probabilistic。建议每个问题多跑几次，更科学！

Open yiqinfu opened this issue 1 year ago • 1 comments

谢谢创作！

Mar 19 '23 15:03 yiqinfu

感谢反馈！我们最初设计实验时也考虑过 sampling 导致的随机性，但每个问题给多次输出会显著提升评价者的工作量，同时也不便于读者横向对比。

为此，我们计划对能够调整 temperature 或 top-k/top-p 等参数的模型选用 deterministic 输出作为标准，但遗憾的是目前仅有 GPT-3.5 (text-davinci-003) 等以 API 形式提供服务的模型可以兼容。

Mar 20 '23 04:03 peakji