FsFont icon indicating copy to clipboard operation
FsFont copied to clipboard

reference set

Open lijiaxinxin opened this issue 2 years ago • 3 comments

你好! 非常感谢你公布这项工作的代码。 目前我有一些关于reference set 的问题,希望能够得到你的解答。 1)在论文中提到使用100个字组成reference set,这100个字包含在全部的3396中,还是包含在常见的20K个字中?(正文中的表述和补充材料中的表述似乎不一致) d4813a4dbe4ebaf07c5fb0b1cac5558

759c276f541f230a7030d1775d1987e 2) reference set 中的字是否需要包括论文中提及的374个组件(我在自定义reference set会出现达到了100个字,但是未包括所有组件的情况)

lijiaxinxin avatar Sep 15 '22 15:09 lijiaxinxin

100个字不包括所有组件,只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内,我们没有对这些生僻字做mapping

tlc121 avatar Sep 16 '22 06:09 tlc121

100个字不包括所有组件,只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内,我们没有对这些生僻字做mapping

这100个字的选择范围是什么呢?是只在训练集中的2896个汉字中挑选?还是在整个数据集的3396个汉字中挑选?

lijiaxinxin avatar Sep 16 '22 12:09 lijiaxinxin

100个字不包括所有组件,只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内,我们没有对这些生僻字做mapping

这100个字的选择范围是什么呢?是只在训练集中的2896个汉字中挑选?还是在整个数据集的3396个汉字中挑选?

再3396的数据集外挑选100字,这100字可以cover包括训练集的2896 + 测试集的500。总汉字是3396 + 100 = 3496。100refernce不算训练集,我们不考虑reference字推理自己的情况。当然你可以自己挑选训练集和reference集

tlc121 avatar Sep 17 '22 14:09 tlc121