关于模型设计的几个疑问
请教一下关于模型设计的问题:
-
为了单一字符的生成而采取多样本的同一作者样本作为style samples,并且对于目标字符除了提供字符本身的信息之外,另外还附加了一个渲染图像作为额外输入,你们会认为这样的输入设置会造成太多信息冗余吗?实际情况中,更多的可能只有一个很短的style input + 目标字符串(“你好,世界”), 但这个单字符渲染图像的限制就导致无法扩展到多字符合成。不知道这么理解是否正确?
-
那个渲染的图像是怎么生成的?看起来不像是CASIA的原始数据,是根据某个中文字体生成的吗? 谢谢!
您好~第一个问题:我们认为并不会有信息冗余哈啊哈哈,因为用户只需要输入text就好,text渲染成image是模型内部的事情,对用户是完全不可见的。而且渲染出的image可以提供更丰富的内容信息,这个在很多论文中已经验证过了。当然,你说的需要同一个作者的多个样本作为风格参考,这个确实不方便,这个问题在我们的最新工作One-DM已经得到解决了,One-DM仅需一张参考样本!然后目标字符串这个问题,理论上把“你好,世界”这五个字符拼接在一起作为内容输入,就可以直接合成多字符。
第二个问题:那是一种特殊的平均化字体,他的出处你可以翻一下我们的论文,我们在网盘中也提供了该文件。
您好~第一个问题:我们认为并不会有信息冗余哈啊哈哈,因为用户只需要输入text就好,text渲染成image是模型内部的事情,对用户是完全不可见的。而且渲染出的image可以提供更丰富的内容信息,这个在很多论文中已经验证过了。当然,你说的需要同一个作者的多个样本作为风格参考,这个确实不方便,这个问题在我们的最新工作One-DM已经得到解决了,One-DM仅需一张参考样本!
哈哈,有道理,如果要求效果也许这种输入是必要的。另外好奇一点的是,目前的输入信息完全是基于图像的,你们有没有试过如果用style sample的原始online信息--独占使用或者是融合使用--能不能取得类似的效果?
然后目标字符串这个问题,理论上把“你好,世界”这五个字符拼接在一起作为内容输入,就可以直接合成多字符。
能否详细解释一下?这个至少需要改模型架构并且重新训练才行吧?
第二个问题:那是一种特殊的平均化字体,他的出处你可以翻一下我们的论文,我们在网盘中也提供了该文件。
请问那个SCFont有开源的原始字体吗?网盘里面存的是渲染完成的字体图片了。
谢谢以上!