MiniCPM
MiniCPM copied to clipboard
[Feature Request]: 关于MiniCPM词表粒度对模型性能影响评估的想法
Feature request / 功能建议
我最近关注分词对大模型效果的影响,具体分析了Qwen2.5、Deepseek和Gpt-4o词表以及可能存在的问题。 相关文档和代码在 https://github.com/zhaoyukoon/damoxing_fenci_gongji/tree/main。
我对MiniCPM3-4B做了一样的分析,MiniCPM3-4B也是基于BPE构建,发现词表其实也类似的情况,核心的店有很多长词。
加倍支付迟延履行期间的债务利息
可在接到判决书的第二日起十日内
离婚诉讼或者涉及未成年子女抚养
之日起五日内向本院申请复议一次
适用简易程序公开开庭进行了审理
这是一道关于多学科知识的选择题
融券筹码不断累加深天马重组案再遭
第一百五十四条裁定适用于下列范围
南京还有多少小区的水景明明废弃了
不同类型的客房附带不同的取消预订
初步统计了一下,其中有27617个中文词汇,其中有大量的长词汇,对应分布如下。
12241 2
8217 1
4189 3
1657 4
449 5
351 6
157 7
113 8
66 9
56 10
41 11
25 13
25 12
20 14
6 15
4 16
我的想法很简单,上面的词汇都可以分成更细粒度的词汇。我简单尝试了一下,分词去重后词表是20937个。
长度分布如下:
8217 1
10835 2
1246 3
583 4
34 5
11 6
8 7
2 8
1 9
绝大多数都是1个或者两个字的词。
我不知道你们是否有试过将中文词切成更细粒度,甚至是字级别,对模型性能的影响。特别是对MiniCPM这样的小模型来说可能影响会比72B或者deepseek-v3这样的大。
之前对 qwen和deepseek的分析以及 对分词的建议 可 参考 注意分词!分词影响大模型的初步发现
感谢建议。