MARCONet 关于预训练模型和yml文件中使用的模型

首先感谢作者杰出的工作，另外有一点点不明白的地方，希望作者解答一下。在checkpoints/download_github.py下载后，似乎可以得到5个模型权重，分别是net_new_bbox.pth，net_prior_generation.pth,net_real_world_ocr.pth,net_sr.pth和net_transformer_encoder.pth。然后在train.yml文件中，似乎只使用net_prior_generation.pth，net_transformer_encoder.pth和net_sr.pth。

关于train.yml文件中的net_d.pth和net_srd.pth来自哪里？
关于train.yml文件中，pretrain_network_ocr是否也可以使用预训练权重，模型来自哪里？是net_real_world_ocr.pth吗？
download_github.py下载的net_real_world_ocr.pth和net_new_bbox.pth用在何处？

Mar 03 '25 02:03 EchoXu98

首先感谢作者杰出的工作，另外有一点点不明白的地方，希望作者解答一下。在checkpoints/download_github.py下载后，似乎可以得到5个模型权重，分别是net_new_bbox.pth，net_prior_generation.pth,net_real_world_ocr.pth,net_sr.pth和net_transformer_encoder.pth。然后在train.yml文件中，似乎只使用net_prior_generation.pth，net_transformer_encoder.pth和net_sr.pth。

关于train.yml文件中的net_d.pth和net_srd.pth来自哪里？

关于train.yml文件中，pretrain_network_ocr是否也可以使用预训练权重，模型来自哪里？是net_real_world_ocr.pth吗？

download_github.py下载的net_real_world_ocr.pth和net_new_bbox.pth用在何处？

关于训练代码，可以进入https://github.com/csxmli2016/MARCONet/tree/main/Train 里有详细的介绍，按照这里的python scripts/download.py可以下载所需的所有文件。你提的checkpoints/download_github.py是下载测试用的模型，不是训练的。
pretrain_network_ocr可以单独训练，不用跟sr模型一起，这样可以让网络更快的去微调先验，并嵌入SR过程中。
用到测试时的这里了https://github.com/csxmli2016/MARCONet/blob/58582fe5801b4ff3b5cdaf6e96c8feb3a426b68a/test_sr.py#L68 和 https://github.com/csxmli2016/MARCONet/blob/58582fe5801b4ff3b5cdaf6e96c8feb3a426b68a/test_sr.py#L61

Mar 03 '25 02:03 csxmli2016

首先感谢作者杰出的工作，另外有一点点不明白的地方，希望作者解答一下。在checkpoints/download_github.py下载后，似乎可以得到5个模型权重，分别是net_new_bbox.pth，net_prior_generation.pth,net_real_world_ocr.pth,net_sr.pth和net_transformer_encoder.pth。然后在train.yml文件中，似乎只使用net_prior_generation.pth，net_transformer_encoder.pth和net_sr.pth。

关于train.yml文件中的net_d.pth和net_srd.pth来自哪里？

关于train.yml文件中，pretrain_network_ocr是否也可以使用预训练权重，模型来自哪里？是net_real_world_ocr.pth吗？

download_github.py下载的net_real_world_ocr.pth和net_new_bbox.pth用在何处？
关于训练代码，可以进入https://github.com/csxmli2016/MARCONet/tree/main/Train 里有详细的介绍，按照这里的python scripts/download.py可以下载所需的所有文件。你提的checkpoints/download_github.py是下载测试用的模型，不是训练的。

pretrain_network_ocr可以单独训练，不用跟sr模型一起，这样可以让网络更快的去微调先验，并嵌入SR过程中。
用到测试时的这里了
  [MARCONet/test_sr.py](https://github.com/csxmli2016/MARCONet/blob/58582fe5801b4ff3b5cdaf6e96c8feb3a426b68a/test_sr.py#L68)


     Line 68
  in
  [58582fe](/csxmli2016/MARCONet/commit/58582fe5801b4ff3b5cdaf6e96c8feb3a426b68a)







       modelOCR.load_state_dict(torch.load('./checkpoints/net_real_world_ocr.pth')['params'], strict=True) 
和
  [MARCONet/test_sr.py](https://github.com/csxmli2016/MARCONet/blob/58582fe5801b4ff3b5cdaf6e96c8feb3a426b68a/test_sr.py#L61)


     Line 61
  in
  [58582fe](/csxmli2016/MARCONet/commit/58582fe5801b4ff3b5cdaf6e96c8feb3a426b68a)







       modelBBox.load_state_dict(torch.load('./checkpoints/net_new_bbox.pth')['params'], strict=True)

好的，谢谢作者的解答，给了我很大帮助

Mar 03 '25 02:03 EchoXu98

你好，再请问一下，TrainData/BGSample/DF2K_Patch给了数张裁剪图像的例子，请问下背景裁剪后图像的数量对最终模型效果的影响大吗？有这个疑问，是因为我想train一下，是否需要下载DF2K或者DIV2K数据集裁出更多的背景。

Mar 03 '25 03:03 EchoXu98

你好，再请问一下，TrainData/BGSample/DF2K_Patch给了数张裁剪图像的例子，请问下背景裁剪后图像的数量对最终模型效果的影响大吗？有这个疑问，是因为我想train一下，是否需要下载DF2K或者DIV2K数据集裁出更多的背景。

影响不大，但是也不要让模型过拟合到这种背景纹理了。

Mar 03 '25 03:03 csxmli2016

好的，谢谢作者

Mar 03 '25 03:03 EchoXu98

MARCONet MARCONet copied to clipboard

关于预训练模型和yml文件中使用的模型

MARCONet
MARCONet copied to clipboard