OCR_Japanease icon indicating copy to clipboard operation
OCR_Japanease copied to clipboard

Blockの位置情報取得について

Open pchikupark opened this issue 3 years ago • 3 comments

素晴らしいOCRの公開ありがとうございます。 質問させていただきたいことがございます。

行を示す緑色のBoundingBox(Block)のxとyを出力することは可能でしょうか? 文字毎の位置情報はjsonの"box"で出力されていることを確認しました。

pchikupark avatar Jan 06 '22 08:01 pchikupark

緑色のBoundingBoxは、jsonの「bbox」の中にある「box」の左上座標の最小値と右下座標の最大値となります。

tanreinama avatar Jan 06 '22 08:01 tanreinama

ご連絡ありがとうございます。 取得方法について承知しました。

若干表題からそれた内容で恐縮ですが、同じ文字でも判定がうまくいく場合といかない場合があります。 Block(行情報)を認識させたいのですが、読み込ませる画像側の処置でノウハウ等がございましたらご教示いただけませんでしょうか? 当方で試行した状況ですと、文字間隔を開けると精度が上がることを確認しました(2枚目、3枚目)。 test jpg-detections 2022-01-06_16h40_07 png-detections 2022-01-06_16h42_17 png-detections

pchikupark avatar Jan 07 '22 07:01 pchikupark

そもそも行数とブロック数は別物の扱いでOCRしています ブロックは、単一の行として認識するのではなく、複数の行からなることも可能な、ひとまとまりの文です なので、行と行の間が開いていないと、1行=1ブロックとはなりません

これは公開モデルが、縦書き横書き両対応であるためなので、モデルのファインチューニングを視野に入れてください

tanreinama avatar Jan 08 '22 03:01 tanreinama