OCR_Japanease
OCR_Japanease copied to clipboard
Blockの位置情報取得について
素晴らしいOCRの公開ありがとうございます。 質問させていただきたいことがございます。
行を示す緑色のBoundingBox(Block)のxとyを出力することは可能でしょうか? 文字毎の位置情報はjsonの"box"で出力されていることを確認しました。
緑色のBoundingBoxは、jsonの「bbox」の中にある「box」の左上座標の最小値と右下座標の最大値となります。
ご連絡ありがとうございます。 取得方法について承知しました。
若干表題からそれた内容で恐縮ですが、同じ文字でも判定がうまくいく場合といかない場合があります。
Block(行情報)を認識させたいのですが、読み込ませる画像側の処置でノウハウ等がございましたらご教示いただけませんでしょうか?
当方で試行した状況ですと、文字間隔を開けると精度が上がることを確認しました(2枚目、3枚目)。
そもそも行数とブロック数は別物の扱いでOCRしています ブロックは、単一の行として認識するのではなく、複数の行からなることも可能な、ひとまとまりの文です なので、行と行の間が開いていないと、1行=1ブロックとはなりません
これは公開モデルが、縦書き横書き両対応であるためなので、モデルのファインチューニングを視野に入れてください