Question: which model is used during data rephrasing?
Thank you for your excellent work on Kimi K2.
My question is, the technical report does not seem to specify which model was used for rewriting during the data rephrasing phase. From some perspectives, it appears to be a data cleaning pipeline, which can significantly improve the training data quality—especially for the raw CC data. However, I believe the original capability of the rewriting model is crucial, and the resulting rephrased text probably shows certain abilities inherent to the model used—somewhat like the effect of distillation, though in a limited form. So I am very curious about which model you used and whether you have compared the original capability of the rewriting model's impact on the rephrasing results and pre-training improvements.
Besides, similar to https://github.com/MoonshotAI/Kimi-K2/issues/43, I think another possible approach is to utilize the best models from each LLM company to perform rephrasing on the same data corpus for data augmentation, so that the best capabilities can be incorporated into the pretraining data (as long as it does not violate the terms of use of the LLM in use, and considering the cost to do so...).
Hi, we use moonshot-v1-128k to rephrase data. This model is trained in October 2024, and is optimized for long-context retrieval, especially the faithfulness.
此外,与 #43 类似,我认为另一种可能的方法是利用每个 LLM 公司的最佳模型对同一数据语料库进行重述以进行数据增强,以便将最佳功能纳入预训练数据中(只要它不违反所使用的 LLM 的使用条款,并考虑这样做的成本......)。
个人理解 如果是使用其他不同的 LLM 进行“重述法”,则仅仅是使用其他 LLM 的重述结果,那么这么做可以产生更好效果的本质,仍然还是 Scaling Law :规模越大的数据量,产生了越好的性能。只不过这种数据是由 LLM 产生的、特定内容的、质量较高的、稠密的数据,从而在这个稠密的范围内,产生了更好的性能。
但是“重述法”的过程有可能才是不同于 Scaling Law ,潜力更大的一个方向。 “重述法”的过程是让 LLM 自己学会强化初始文本当中内在联系的一种方法。让 LLM 的学习不仅仅停留在初始文本中已经说明的表面部分,而是要让 LLM 学会深挖初始文本中没有明说潜在部分。是让 LLM 从【记住】转变为【学会】的一个过程。 就像有的人,即便是把教材的文本,原封不动的背诵下来,也不一定可以解决这本教材对应的问题。这仅仅只是【记住】了文本而已。 有的人虽然不能够将教材的文本一模一样的背诵下来,但是已经可以解决这本教材对应的问题,甚至于可以举一反三。这样才能够算是【学会】了。
第二种“重述法”的最终理想状态是,不需要人为反复的让 LLM 重述同一个相同的单一内容,在给予 LLM 初始文本之后,LLM 自己就进行了“重述”。或者是最多一次重述,就可以让 LLM 从【记住】转变为【学会】。