万象素材 › 万象专栏 › 人工智能专栏

OCR库Tesseract初探【图文】

推荐

荼靡 2021-07-31 14:46 2021/07/31 ©著作权读给你听

文章标签 python github c# java 批处理文件其他人工智能万象人工智能专栏 专栏分类人工智能 阅读数12623 评论数0 点赞数7 收藏数0

导读：1.Tesseract 安装及使用一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）..

1.Tesseract 安装及使用

一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，与Microsoft Office Document Imaging（MODI）相比，我们可以不断的训练的库，使图像转换文本的能力不断增强；如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎。

源码地址为：https://github.com/tesseract-ocr/tesseract；

tesseract下载地址：https://digi.bib.uni-mannheim.de/tesseract/

接下来，我们将在Windows环境下安装Tesseract并实现简单的转换和训练：

进入下载页面，可以看到有各种.exe文件的下载列表，这里可以选择下载3.0版本。

OCR库Tesseract初探_c#

其中文件名中带有dev的为开发版本，不带dev的为稳定版本，可以选择下载不带dev的版本，例如可以选择下载tesseract-ocr-setup-3.05.02.exe。

下载完成后双击，此时会出现如下图所示的页面。

OCR库Tesseract初探_github_02

此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包，这样OCR便可以识别多国语言，默认只有英语。然后一路点击Next按钮即可。

配置环境变量

为了在全局使用方便，比如安装路径为C:\Program Files (x86)\Tesseract-OCR，将该路径添加到环境变量的Path中。

还有一个环境变量要添加：TESSDATA_PREFIX 指向C:\Program Files (x86)\Tesseract-OCR\tessdata 这个是用于语言包的。

OCR库Tesseract初探_java_03

测试是否安装成功：在cmd中输入tesseract ，将出现以下界面代表成功：

OCR库Tesseract初探_java_04

2.Tesseract的使用

方式一：直接在命令行调用：

tesseract d:\6.png d:\result

更多文章请关注《万象专栏》

转载请注明出处：https://www.wanxiangsucai.com/read/cv15050

话题推荐： #python# #github# #c## #java# #批处理文件# #其他# #人工智能# #万象人工智能专栏#

打赏
7 赞
收藏
评论
举报

下一篇：四个月内掌握AI快速入门人工智能的关键技能与学习路径

发布评论

全部评论(0)