tessdata_chi icon indicating copy to clipboard operation
tessdata_chi copied to clipboard

How to use this repository

Open MiracleDx opened this issue 3 years ago • 1 comments

我有一些例如:①②③④⑤这种的符号,该如何通过您的代码进行训练呢

MiracleDx avatar May 13 '22 06:05 MiracleDx

  1. 通过自动或手动的方式把你的其他字符穿插进 langdata/chi_sim/chi_sim.training_text
  2. 收集字体文件,放到 fonts 文件夹
  3. 修改 langdata/chi_sim/chi_sim.fontlist.txt (传统模型)或 chi_sim.fontlist_lstm.txt (LSTM)。可以用 text2image --text=langdata/chi_sim/chi_sim.training_text --outputbase=chi_sim_test --fonts_dir=fonts --find_fonts --min_coverage=0.9 --render_per_font=false 获得字体名称。
  4. 在其他地方新建文件夹(至少有几十G空余空间),设置环境变量 TESSDATA_PREFIX (tesseract 数据位置)和 PATH (tesseract 命令行位置),运行 python3 <本项目文件夹>/configure.py
  5. 运行 make -j10(根据CPU核数设置)

gumblex avatar May 13 '22 06:05 gumblex