FsFont
FsFont copied to clipboard
reference set
你好!
非常感谢你公布这项工作的代码。
目前我有一些关于reference set 的问题,希望能够得到你的解答。
1)在论文中提到使用100个字组成reference set,这100个字包含在全部的3396中,还是包含在常见的20K个字中?(正文中的表述和补充材料中的表述似乎不一致)
2) reference set 中的字是否需要包括论文中提及的374个组件(我在自定义reference set会出现达到了100个字,但是未包括所有组件的情况)
100个字不包括所有组件,只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内,我们没有对这些生僻字做mapping
100个字不包括所有组件,只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内,我们没有对这些生僻字做mapping
这100个字的选择范围是什么呢?是只在训练集中的2896个汉字中挑选?还是在整个数据集的3396个汉字中挑选?
100个字不包括所有组件,只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内,我们没有对这些生僻字做mapping
这100个字的选择范围是什么呢?是只在训练集中的2896个汉字中挑选?还是在整个数据集的3396个汉字中挑选?
再3396的数据集外挑选100字,这100字可以cover包括训练集的2896 + 测试集的500。总汉字是3396 + 100 = 3496。100refernce不算训练集,我们不考虑reference字推理自己的情况。当然你可以自己挑选训练集和reference集