1. 首页>
  2. 技术文章>
  3. jTessBoxEditor入门教程

jTessBoxEditor入门教程

11/8/22 10:22:20 AM 浏览 1410 评论 0

jTessBoxEditor Tesseract-OCR

先去网上下载jTessBoxEditorFx,这个才支持中文,打开jtessboxeditor,点击Tools->Merge Tiff ,选择图片文件,生成的tif合并到新目录d:\test,生成box文件,命令:

tesseract e:\test5.normal.exp0.tif e:\test5.normal.exp0 -l chi_sim batch.nochop makebox

jTessBoxEditorFx中的Box Editor中open选中这个tif文件,会自动关联box文件,当两个文件是同名不同后缀时会自动关联,手动修改,然后保存。

定义字符配置文件

在文件夹文件夹内,新建一个文本文件,名为font_properties,删掉.txt,用记事本打开,写入内容为:

font 0 0 0 0 0

生成tr文件的时候居然出错了,错误:

Error:Assert failed:in file ../../../../../src/ccmain/applybox.cpp, line 317

百度了一下,说是用jTessBoxEditorFx产生的tif文件问题,下载VietOCR.NET重新生成tif文件。生成.tr文件:

tesseract.exe e:\test5.normal.exp0.tif e:\test5.normal.exp0 nobatch -l chi-sim box.train

如果生成还是失败,那么有可能框框有多个文字覆盖了,要重新整理一下。
tif文件命名格式[lang].[fontname].exp[num].tif
tif命名规则:lang为语言名称,fontname为字体名称,num为图片序号;

比如我们要训练自定义字库 testlang、字体名normal,则命名为testlang.normal.exp0.tif

新建一个没有后缀的font_properties,内容是:

normal 0 0 0 0 0

执行命令,生成名为unicharset的字符集文件

D:\Program Files\Tesseract-OCR>unicharset_extractor e:\test5.normal.exp0.box
Extracting unicharset from box file e:\test5.normal.exp0.box
Wrote unicharset file unicharset

生成shape文件

shapeclustering -F font_properties -U unicharset -O e:\test5.normal.exp0.tr

输出解析的结果:

tesseract 1.tif out -l chi_sim+test5

如果想直接输出:

tesseract 1.tif stdout -l chi_sim+test5


网友讨论