`
KPTu
  • 浏览: 22561 次
  • 性别: Icon_minigender_1
  • 来自: 苏州
文章分类
社区版块
存档分类
最新评论

开源的OCR库

阅读更多

开源的OCR库

 

 

OCRE, OCR Easy,    http://lem.eui.upm.es/ocre.html

Clara OCR,              http://directory.fsf.org/claraocr.html

Ocrad, based on a feature extraction, http://directory.fsf.org/ocrad.html

GOCR,                     http://sourceforge.net/projects/jocr

OCRchie: Modular Optical Character Recognition Software, http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html

http://code.google.com/p/tesseract-ocr/

gocr和ocrad稍作修改可在Windows下编译运行。gocr用vc6, ocrad用gcc。

 

OCRE,OCRchie和clara OCR需要X window或gtk不太好编译。

 

tesseract 用VC ,10年前的东西,太老, 里面很多代码是STL的原型

 

 

 

 

  Tesseract是一个开源OCR程序

 

  之前就有看见有人在说,tesseract是10好几年前的东西,太老了。但是就在9个小时前,Tesseract OCR的开发人员用事实告诉世人,Tesseract OCR不但活着,还在不断地自我完善中。

 

  2010年9月30日,Tesseract 正式发布了它的3.0版本(http://code.google.com/p/tesseract-ocr/)。

 

  这次更新主要做了以下工作:

  1. 为线程安全做了一些筹备工作:更改TessBaseAPI方法被非静态;为目录创建类的层次结构,以容纳实例数据,并开始移植代码到类当中;移动阈值代码到一个单独的类。

  2. 增加了新的页面布局分析模块。

  3. 新增HOCR输出。

  4.添加Leptonica作为主要的图像输入输出及处理模块。现在,是否使用Leptonica是可选的,但是在未来的版本中,Leptonica是必须使用的模块。  http://www.leptonica.org/index.html

  5. 重写歧义表(模糊表?),允许在fix_quotes中定义替换方式。

  6. 新增TessdataManager,它可以将多个Tesseract特征数据文件合并成一个单一的文件。

  7. 删除一些无用的代码。

  8. 因为VC++ 6不能很好地应付模板的使用,它不再被Tesseract支持。

  9. 对大部分的函数头注释进行了修改。

 

  还有一点没有写在官方的release notes里面,但是我个人觉得是非常非常好的改进:支持识别更多的语言,其中就包括简体中文和繁体中文。

 

 

利用开源程序(ImageMagick+tesseract-ocr)实现图像验证码识别

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics