一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
源码地址为:https://github.com/tesseract-ocr/tesseract;
tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/
接下来,我们将在Windows环境下安装Tesseract并实现简单的转换和训练:
进入下载页面,可以看到有各种.exe文件的下载列表,这里可以选择下载3.0版本。

其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-3.05.02.exe。
下载完成后双击,此时会出现如下图所示的页面。

此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言,默认只有英语。然后一路点击Next按钮即可。
配置环境变量
为了在全局使用方便,比如安装路径为C:\Program Files (x86)\Tesseract-OCR,将该路径添加到环境变量的Path中。
还有一个环境变量要添加:TESSDATA_PREFIX 指向C:\Program Files (x86)\Tesseract-OCR\tessdata 这个是用于语言包的。

测试是否安装成功:在cmd中输入tesseract ,将出现以下界面代表成功:

2.Tesseract的使用
方式一:直接在命令行调用:
tesseract d:\6.png d:\result
更多文章请关注《万象专栏》
转载请注明出处:https://www.wanxiangsucai.com/read/cv15050