bjtuln
bjtuln
在参考controlnet复现anytext训练代码想问一下ucg的比例是多大?  另外想问一下训练时td loss和tp loss都能收敛到什么程度,复现代码续训时tp loss在0.01到0.1之间震荡,tp loss在0.0004到0.01之间震荡  
请问这样直接用ocr_embedding替换原始token的方法对于所有text_encoder模型都适用吗,还是只适用于clip模型?我在T5模型上实验发现生成文字图片效果反而下降了
如果只做带文字的生成任务不做编辑任务,masked image特征是不是可以不加 
When rendering text, the text goes beyond the image boundary