FsFont
FsFont copied to clipboard

Published 20 hours ago •

Reame
Issues

reference set

Open lijiaxinxin opened this issue 2 years ago • 3 comments

你好！非常感谢你公布这项工作的代码。目前我有一些关于reference set 的问题，希望能够得到你的解答。 1）在论文中提到使用100个字组成reference set，这100个字包含在全部的3396中，还是包含在常见的20K个字中？（正文中的表述和补充材料中的表述似乎不一致） d4813a4dbe4ebaf07c5fb0b1cac5558

759c276f541f230a7030d1775d1987e 2) reference set 中的字是否需要包括论文中提及的374个组件（我在自定义reference set会出现达到了100个字，但是未包括所有组件的情况）

Sep 15 '22 15:09 lijiaxinxin

100个字不包括所有组件，只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内，我们没有对这些生僻字做mapping

Sep 16 '22 06:09 tlc121

100个字不包括所有组件，只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内，我们没有对这些生僻字做mapping

这100个字的选择范围是什么呢？是只在训练集中的2896个汉字中挑选？还是在整个数据集的3396个汉字中挑选？

Sep 16 '22 12:09 lijiaxinxin

100个字不包括所有组件，只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内，我们没有对这些生僻字做mapping

这100个字的选择范围是什么呢？是只在训练集中的2896个汉字中挑选？还是在整个数据集的3396个汉字中挑选？

再3396的数据集外挑选100字，这100字可以cover包括训练集的2896 + 测试集的500。总汉字是3396 + 100 = 3496。100refernce不算训练集，我们不考虑reference字推理自己的情况。当然你可以自己挑选训练集和reference集

Sep 17 '22 14:09 tlc121