MARCONet icon indicating copy to clipboard operation
MARCONet copied to clipboard

关于预训练模型和yml文件中使用的模型

Open EchoXu98 opened this issue 8 months ago • 5 comments

首先感谢作者杰出的工作,另外有一点点不明白的地方,希望作者解答一下。在checkpoints/download_github.py下载后,似乎可以得到5个模型权重,分别是net_new_bbox.pth,net_prior_generation.pth,net_real_world_ocr.pth,net_sr.pth和net_transformer_encoder.pth。然后在train.yml文件中,似乎只使用net_prior_generation.pth,net_transformer_encoder.pth和net_sr.pth。

  1. 关于train.yml文件中的net_d.pth和net_srd.pth来自哪里?
  2. 关于train.yml文件中,pretrain_network_ocr是否也可以使用预训练权重,模型来自哪里?是net_real_world_ocr.pth吗?
  3. download_github.py下载的net_real_world_ocr.pth和net_new_bbox.pth用在何处?

EchoXu98 avatar Mar 03 '25 02:03 EchoXu98

首先感谢作者杰出的工作,另外有一点点不明白的地方,希望作者解答一下。在checkpoints/download_github.py下载后,似乎可以得到5个模型权重,分别是net_new_bbox.pth,net_prior_generation.pth,net_real_world_ocr.pth,net_sr.pth和net_transformer_encoder.pth。然后在train.yml文件中,似乎只使用net_prior_generation.pth,net_transformer_encoder.pth和net_sr.pth。

  1. 关于train.yml文件中的net_d.pth和net_srd.pth来自哪里?
  2. 关于train.yml文件中,pretrain_network_ocr是否也可以使用预训练权重,模型来自哪里?是net_real_world_ocr.pth吗?
  3. download_github.py下载的net_real_world_ocr.pth和net_new_bbox.pth用在何处?
  1. 关于训练代码,可以进入https://github.com/csxmli2016/MARCONet/tree/main/Train 里有详细的介绍,按照这里的python scripts/download.py可以下载所需的所有文件。你提的checkpoints/download_github.py是下载测试用的模型,不是训练的。
  2. pretrain_network_ocr可以单独训练,不用跟sr模型一起,这样可以让网络更快的去微调先验,并嵌入SR过程中。
  3. 用到测试时的这里了https://github.com/csxmli2016/MARCONet/blob/58582fe5801b4ff3b5cdaf6e96c8feb3a426b68a/test_sr.py#L68 和 https://github.com/csxmli2016/MARCONet/blob/58582fe5801b4ff3b5cdaf6e96c8feb3a426b68a/test_sr.py#L61

csxmli2016 avatar Mar 03 '25 02:03 csxmli2016

首先感谢作者杰出的工作,另外有一点点不明白的地方,希望作者解答一下。在checkpoints/download_github.py下载后,似乎可以得到5个模型权重,分别是net_new_bbox.pth,net_prior_generation.pth,net_real_world_ocr.pth,net_sr.pth和net_transformer_encoder.pth。然后在train.yml文件中,似乎只使用net_prior_generation.pth,net_transformer_encoder.pth和net_sr.pth。

  1. 关于train.yml文件中的net_d.pth和net_srd.pth来自哪里?
  2. 关于train.yml文件中,pretrain_network_ocr是否也可以使用预训练权重,模型来自哪里?是net_real_world_ocr.pth吗?
  3. download_github.py下载的net_real_world_ocr.pth和net_new_bbox.pth用在何处?
  1. 关于训练代码,可以进入https://github.com/csxmli2016/MARCONet/tree/main/Train 里有详细的介绍,按照这里的python scripts/download.py可以下载所需的所有文件。你提的checkpoints/download_github.py是下载测试用的模型,不是训练的。

  2. pretrain_network_ocr可以单独训练,不用跟sr模型一起,这样可以让网络更快的去微调先验,并嵌入SR过程中。

  3. 用到测试时的这里了

      [MARCONet/test_sr.py](https://github.com/csxmli2016/MARCONet/blob/58582fe5801b4ff3b5cdaf6e96c8feb3a426b68a/test_sr.py#L68)
    
    
         Line 68
      in
      [58582fe](/csxmli2016/MARCONet/commit/58582fe5801b4ff3b5cdaf6e96c8feb3a426b68a)
    
    
    
    
    
    
    
           modelOCR.load_state_dict(torch.load('./checkpoints/net_real_world_ocr.pth')['params'], strict=True) 
    

      [MARCONet/test_sr.py](https://github.com/csxmli2016/MARCONet/blob/58582fe5801b4ff3b5cdaf6e96c8feb3a426b68a/test_sr.py#L61)
    
    
         Line 61
      in
      [58582fe](/csxmli2016/MARCONet/commit/58582fe5801b4ff3b5cdaf6e96c8feb3a426b68a)
    
    
    
    
    
    
    
           modelBBox.load_state_dict(torch.load('./checkpoints/net_new_bbox.pth')['params'], strict=True)
    

好的,谢谢作者的解答,给了我很大帮助

EchoXu98 avatar Mar 03 '25 02:03 EchoXu98

你好,再请问一下,TrainData/BGSample/DF2K_Patch给了数张裁剪图像的例子,请问下背景裁剪后图像的数量对最终模型效果的影响大吗?有这个疑问,是因为我想train一下,是否需要下载DF2K或者DIV2K数据集裁出更多的背景。

EchoXu98 avatar Mar 03 '25 03:03 EchoXu98

你好,再请问一下,TrainData/BGSample/DF2K_Patch给了数张裁剪图像的例子,请问下背景裁剪后图像的数量对最终模型效果的影响大吗?有这个疑问,是因为我想train一下,是否需要下载DF2K或者DIV2K数据集裁出更多的背景。

影响不大,但是也不要让模型过拟合到这种背景纹理了。

csxmli2016 avatar Mar 03 '25 03:03 csxmli2016

好的,谢谢作者

EchoXu98 avatar Mar 03 '25 03:03 EchoXu98