LinUser-000

Results 1 comments of LinUser-000

> 此外,与 [#43](https://github.com/MoonshotAI/Kimi-K2/issues/43) 类似,我认为另一种可能的方法是利用每个 LLM 公司的最佳模型对同一数据语料库进行重述以进行数据增强,以便将最佳功能纳入预训练数据中(只要它不违反所使用的 LLM 的使用条款,并考虑这样做的成本......)。 个人理解 如果是使用其他不同的 LLM 进行“重述法”,则仅仅是使用其他 LLM 的重述结果,那么这么做可以产生更好效果的本质,仍然还是 Scaling Law :规模越大的数据量,产生了越好的性能。只不过这种数据是由 LLM 产生的、特定内容的、质量较高的、稠密的数据,从而在这个稠密的范围内,产生了更好的性能。 但是“重述法”的过程有可能才是不同于 Scaling Law ,潜力更大的一个方向。 “重述法”的过程是让 LLM 自己学会强化初始文本当中内在联系的一种方法。让 LLM 的学习不仅仅停留在初始文本中已经说明的表面部分,而是要让 LLM 学会深挖初始文本中没有明说潜在部分。是让...