echochoc
echochoc
> 根据focalloss的原理 应该写成如下形式 > focal_loss = tf.abs(target - alpha) * tf.pow(tf.abs(target - actual), gamma) > > # 正样本时为 (1-alpha) * tf.pow(actual, gamma) > # 负样本时为 (alpha) * tf.pow((1-actual), gamma) >...
> Hi authors, I tried DINO with my dataset of 4000000 images of people. But after 30 epochs, the loss function does not decrease anymore. Do you have any idea...
> 目前仅支持单行文本识别, 多行复杂排版需要标注多个检测框。请问您的场景中都是这类图片吗?如果样式固定可以写一个统一的处理逻辑,例如把每张图片分离成价格和单位两个部分,分别经过OCR识别,最终将结果拼在一起。 感谢回复。实际场景不一定,价签的版式多种多样。
@tink2123 我看PPOCRv4里使用了SVTR结构,把图片做了patch-wise image tokenization,是不是可以一定程度上解决这个问题呢? 还有有的时候价格可能是这种形式的:  我希望预测出370.00,是否可以直接标记为"370.00"呢?
In my case, my training dataset will periodically grow over time, continuously incorporating images from new categories. I hope to train the model with long-life learning. Any ideas?