训练方向建议

Open 021gink opened this issue 6 months ago • 0 comments

目前的训练，奖励模型如何有效的pass@1,而忽略模型能够提出类似9.11与9.8哪个大的暴露自身缺陷问题的能力，建议奖励规则或者训练环节，增强模型能够提出优质问题的能力。

理想的状态模型应该自己去训练自己。就像alphago 自己与自己的前一个版本博弈，从而不断迭代提升。但是目前模型训练似乎还没有实现自问自答，不断探索的能力。好的问题比答案更重要，我们不仅需要能够解答博士难度的模型，还需要模型自身能够提出更有价值问题的能力。

提问比答案更重要

Jun 28 '25 01:06 021gink