MiniCPM icon indicating copy to clipboard operation
MiniCPM copied to clipboard

[Feature Request]: 关于MiniCPM词表粒度对模型性能影响评估的想法

Open zhaoyukoon opened this issue 11 months ago • 1 comments

Feature request / 功能建议

我最近关注分词对大模型效果的影响,具体分析了Qwen2.5、Deepseek和Gpt-4o词表以及可能存在的问题。 相关文档和代码在 https://github.com/zhaoyukoon/damoxing_fenci_gongji/tree/main。

我对MiniCPM3-4B做了一样的分析,MiniCPM3-4B也是基于BPE构建,发现词表其实也类似的情况,核心的店有很多长词。

加倍支付迟延履行期间的债务利息
可在接到判决书的第二日起十日内
离婚诉讼或者涉及未成年子女抚养
之日起五日内向本院申请复议一次
适用简易程序公开开庭进行了审理
这是一道关于多学科知识的选择题
融券筹码不断累加深天马重组案再遭
第一百五十四条裁定适用于下列范围
南京还有多少小区的水景明明废弃了
不同类型的客房附带不同的取消预订

初步统计了一下,其中有27617个中文词汇,其中有大量的长词汇,对应分布如下。

  12241 2
   8217 1
   4189 3
   1657 4
    449 5
    351 6
    157 7
    113 8
     66 9
     56 10
     41 11
     25 13
     25 12
     20 14
      6 15
      4 16

我的想法很简单,上面的词汇都可以分成更细粒度的词汇。我简单尝试了一下,分词去重后词表是20937个。

长度分布如下:

   8217 1
  10835 2
   1246 3
    583 4
     34 5
     11 6
      8 7
      2 8
      1 9

绝大多数都是1个或者两个字的词。

我不知道你们是否有试过将中文词切成更细粒度,甚至是字级别,对模型性能的影响。特别是对MiniCPM这样的小模型来说可能影响会比72B或者deepseek-v3这样的大。

zhaoyukoon avatar Jan 14 '25 15:01 zhaoyukoon

之前对 qwen和deepseek的分析以及 对分词的建议 可 参考 注意分词!分词影响大模型的初步发现

zhaoyukoon avatar Jan 14 '25 15:01 zhaoyukoon

感谢建议。

zh-zheng avatar Jun 07 '25 03:06 zh-zheng