tessdata_chi
tessdata_chi copied to clipboard
How to use this repository
我有一些例如:①②③④⑤这种的符号,该如何通过您的代码进行训练呢
- 通过自动或手动的方式把你的其他字符穿插进 langdata/chi_sim/chi_sim.training_text
- 收集字体文件,放到 fonts 文件夹
- 修改 langdata/chi_sim/chi_sim.fontlist.txt (传统模型)或 chi_sim.fontlist_lstm.txt (LSTM)。可以用
text2image --text=langdata/chi_sim/chi_sim.training_text --outputbase=chi_sim_test --fonts_dir=fonts --find_fonts --min_coverage=0.9 --render_per_font=false获得字体名称。 - 在其他地方新建文件夹(至少有几十G空余空间),设置环境变量
TESSDATA_PREFIX(tesseract 数据位置)和PATH(tesseract 命令行位置),运行python3 <本项目文件夹>/configure.py - 运行
make -j10(根据CPU核数设置)