PaddleOCR-VL后处理合框逻辑问题

Open shufanwu opened this issue 2 months ago • 1 comments

您好，我在看合并的实现逻辑时，发现如下几个问题，可能导致框的合并存在问题：

判断框是否上下对齐的一个条件是需要与其他框存在重叠，这里该如何理解？是否少了一个not？https://github.com/PaddlePaddle/PaddleX/blob/release/3.3/paddlex/inference/pipelines/paddleocr_vl/uilts.py#L248
is_cross表示两个框在水平方向无重叠，且竖直方向有重叠。该逻辑合框的依据是什么？根据现在的逻辑，会将下图中3，4合并。

Nov 11 '25 04:11 shufanwu

并不少，这里的判断是针对插图采用"文字环绕"的情形时，导致段落被分成了两个block的情况，这里判断重叠的框就是指那个插图。
这个作用就是对于双栏的左下框和右上检测框进行合并，然后采用居中对齐的方式将两个子图拼接，让VL模型来决定这两段文本是否是真的一个段落，由于VL模型不会返回内容坐标，所以从结果上来看无论这两个框的内容是否合并，json中都会将后一个框的内容放到前一个框里面。

Nov 26 '25 09:11 changdazhou