PaddleX icon indicating copy to clipboard operation
PaddleX copied to clipboard

PaddleOCR-VL后处理合框逻辑问题

Open shufanwu opened this issue 2 months ago • 1 comments

您好,我在看合并的实现逻辑时,发现如下几个问题,可能导致框的合并存在问题:

  1. 判断框是否上下对齐的一个条件是需要与其他框存在重叠,这里该如何理解?是否少了一个not?https://github.com/PaddlePaddle/PaddleX/blob/release/3.3/paddlex/inference/pipelines/paddleocr_vl/uilts.py#L248
  2. is_cross表示两个框在水平方向无重叠,且竖直方向有重叠。该逻辑合框的依据是什么?根据现在的逻辑,会将下图中3,4合并。

yanbaor2_yanbaoPPT_6065_layout_order_res.zip

shufanwu avatar Nov 11 '25 04:11 shufanwu

  1. 并不少,这里的判断是针对插图采用"文字环绕"的情形时,导致段落被分成了两个block的情况,这里判断重叠的框就是指那个插图。

  2. 这个作用就是对于双栏的左下框和右上检测框进行合并,然后采用居中对齐的方式将两个子图拼接,让VL模型来决定这两段文本是否是真的一个段落,由于VL模型不会返回内容坐标,所以从结果上来看无论这两个框的内容是否合并,json中都会将后一个框的内容放到前一个框里面。

changdazhou avatar Nov 26 '25 09:11 changdazhou