jinhui

Results 2 issues of jinhui

### 是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this? - [X] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions ### 该问题是否在FAQ中有解答? | Is there an...

hi,想请教下ocr data在预训练和sft阶段的具体label是怎样产生的? 看了前面很多问题提到ocr的监督为'\ntext1\ntext2\ntext3', 比如[#536](https://github.com/OpenGVLab/InternVL/issues/536)、[#49](https://github.com/OpenGVLab/InternVL/issues/49),但是都没有提到如何组织顺序的。 是按照从左到右从上到下的启发式规则进行排序还是通过模型构建具体的顺序。 启发式规则在遇到一些奇怪结构的时候容易打乱语序,这样的监督是否反而会损害模型的性能哇? 第二个就是看前面[#239](https://github.com/OpenGVLab/InternVL/issues/239)提到有部分带坐标框的ocr训练数据,想请教下带框ocr和不带框ocr的数据比例方便透露么? 非常感谢!