1.Tesseract 安装及使用

一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。

源码地址为:https://github.com/tesseract-ocr/tesseract

tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/

接下来,我们将在Windows环境下安装Tesseract并实现简单的转换和训练:

进入下载页面,可以看到有各种.exe文件的下载列表,这里可以选择下载3.0版本。

 OCR库Tesseract初探_c#

其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-3.05.02.exe。

下载完成后双击,此时会出现如下图所示的页面。

 OCR库Tesseract初探_github_02

此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言,默认只有英语。然后一路点击Next按钮即可。

配置环境变量

为了在全局使用方便,比如安装路径为C:\Program Files (x86)\Tesseract-OCR,将该路径添加到环境变量的Path中。

还有一个环境变量要添加:TESSDATA_PREFIX  指向C:\Program Files (x86)\Tesseract-OCR\tessdata    这个是用于语言包的。

OCR库Tesseract初探_java_03

测试是否安装成功:在cmd中输入tesseract ,将出现以下界面代表成功:

OCR库Tesseract初探_java_04

 

2.Tesseract的使用

方式一:直接在命令行调用:

tesseract d:\6.png d:\result

更多文章请关注《万象专栏》