GLM-4 icon indicating copy to clipboard operation
GLM-4 copied to clipboard

训练方向建议

Open 021gink opened this issue 6 months ago • 0 comments

Feature request / 功能建议

目前的训练,奖励模型如何有效的pass@1,而忽略模型能够提出 类似9.11与9.8哪个大的 暴露自身缺陷问题的能力,建议奖励规则或者训练环节,增强模型能够提出优质问题的能力。

Motivation / 动机

理想的状态模型应该自己去训练自己。就像alphago 自己与自己的前一个版本博弈,从而不断迭代提升。 但是目前模型训练似乎还没有实现自问自答,不断探索的能力。好的问题比答案更重要,我们不仅需要能够解答博士难度的模型,还需要模型自身能够提出更有价值问题的能力。

Your contribution / 您的贡献

提问比答案更重要

021gink avatar Jun 28 '25 01:06 021gink