z-bench icon indicating copy to clipboard operation
z-bench copied to clipboard

大模型的输出都是 probabilistic。建议每个问题多跑几次,更科学!

Open yiqinfu opened this issue 1 year ago • 1 comments

谢谢创作!

yiqinfu avatar Mar 19 '23 15:03 yiqinfu

感谢反馈!我们最初设计实验时也考虑过 sampling 导致的随机性,但每个问题给多次输出会显著提升评价者的工作量,同时也不便于读者横向对比。

为此,我们计划对能够调整 temperaturetop-k/top-p 等参数的模型选用 deterministic 输出作为标准,但遗憾的是目前仅有 GPT-3.5 (text-davinci-003) 等以 API 形式提供服务的模型可以兼容。

peakji avatar Mar 20 '23 04:03 peakji