SDT 关于模型设计的几个疑问

请教一下关于模型设计的问题：

为了单一字符的生成而采取多样本的同一作者样本作为style samples，并且对于目标字符除了提供字符本身的信息之外，另外还附加了一个渲染图像作为额外输入，你们会认为这样的输入设置会造成太多信息冗余吗？实际情况中，更多的可能只有一个很短的style input + 目标字符串（“你好，世界”），但这个单字符渲染图像的限制就导致无法扩展到多字符合成。不知道这么理解是否正确？
那个渲染的图像是怎么生成的？看起来不像是CASIA的原始数据，是根据某个中文字体生成的吗？谢谢！

Oct 29 '24 06:10 galactica147

您好~第一个问题：我们认为并不会有信息冗余哈啊哈哈，因为用户只需要输入text就好，text渲染成image是模型内部的事情，对用户是完全不可见的。而且渲染出的image可以提供更丰富的内容信息，这个在很多论文中已经验证过了。当然，你说的需要同一个作者的多个样本作为风格参考，这个确实不方便，这个问题在我们的最新工作One-DM已经得到解决了，One-DM仅需一张参考样本！然后目标字符串这个问题，理论上把“你好，世界”这五个字符拼接在一起作为内容输入，就可以直接合成多字符。

第二个问题：那是一种特殊的平均化字体，他的出处你可以翻一下我们的论文，我们在网盘中也提供了该文件。

Oct 31 '24 02:10 dailenson

您好~第一个问题：我们认为并不会有信息冗余哈啊哈哈，因为用户只需要输入text就好，text渲染成image是模型内部的事情，对用户是完全不可见的。而且渲染出的image可以提供更丰富的内容信息，这个在很多论文中已经验证过了。当然，你说的需要同一个作者的多个样本作为风格参考，这个确实不方便，这个问题在我们的最新工作One-DM已经得到解决了，One-DM仅需一张参考样本！

哈哈，有道理，如果要求效果也许这种输入是必要的。另外好奇一点的是，目前的输入信息完全是基于图像的，你们有没有试过如果用style sample的原始online信息--独占使用或者是融合使用--能不能取得类似的效果？

然后目标字符串这个问题，理论上把“你好，世界”这五个字符拼接在一起作为内容输入，就可以直接合成多字符。

能否详细解释一下？这个至少需要改模型架构并且重新训练才行吧？

第二个问题：那是一种特殊的平均化字体，他的出处你可以翻一下我们的论文，我们在网盘中也提供了该文件。

请问那个SCFont有开源的原始字体吗？网盘里面存的是渲染完成的字体图片了。

谢谢以上！

Oct 31 '24 17:10 galactica147