z-bench
z-bench copied to clipboard
大模型的输出都是 probabilistic。建议每个问题多跑几次,更科学!
谢谢创作!
感谢反馈!我们最初设计实验时也考虑过 sampling 导致的随机性,但每个问题给多次输出会显著提升评价者的工作量,同时也不便于读者横向对比。
为此,我们计划对能够调整 temperature
或 top-k
/top-p
等参数的模型选用 deterministic 输出作为标准,但遗憾的是目前仅有 GPT-3.5 (text-davinci-003
) 等以 API 形式提供服务的模型可以兼容。