MiniCPM [Feature Request]: 关于MiniCPM词表粒度对模型性能影响评估的想法

Feature request / 功能建议

我最近关注分词对大模型效果的影响，具体分析了Qwen2.5、Deepseek和Gpt-4o词表以及可能存在的问题。相关文档和代码在 https://github.com/zhaoyukoon/damoxing_fenci_gongji/tree/main。

我对MiniCPM3-4B做了一样的分析，MiniCPM3-4B也是基于BPE构建，发现词表其实也类似的情况，核心的店有很多长词。

加倍支付迟延履行期间的债务利息
可在接到判决书的第二日起十日内
离婚诉讼或者涉及未成年子女抚养
之日起五日内向本院申请复议一次
适用简易程序公开开庭进行了审理
这是一道关于多学科知识的选择题
融券筹码不断累加深天马重组案再遭
第一百五十四条裁定适用于下列范围
南京还有多少小区的水景明明废弃了
不同类型的客房附带不同的取消预订

初步统计了一下，其中有27617个中文词汇，其中有大量的长词汇，对应分布如下。

我的想法很简单，上面的词汇都可以分成更细粒度的词汇。我简单尝试了一下，分词去重后词表是20937个。

长度分布如下：

绝大多数都是1个或者两个字的词。

我不知道你们是否有试过将中文词切成更细粒度，甚至是字级别，对模型性能的影响。特别是对MiniCPM这样的小模型来说可能影响会比72B或者deepseek-v3这样的大。

Jan 14 '25 15:01 zhaoyukoon

之前对 qwen和deepseek的分析以及对分词的建议可参考注意分词！分词影响大模型的初步发现

Jan 14 '25 15:01 zhaoyukoon

感谢建议。

Jun 07 '25 03:06 zh-zheng