开源的OCR库
OCRE, OCR Easy, http://lem.eui.upm.es/ocre.html
Clara OCR, http://directory.fsf.org/claraocr.html
Ocrad, based on a feature extraction, http://directory.fsf.org/ocrad.html
GOCR, http://sourceforge.net/projects/jocr
OCRchie: Modular Optical Character Recognition Software, http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html
http://code.google.com/p/tesseract-ocr/
gocr和ocrad稍作修改可在Windows下编译运行。gocr用vc6, ocrad用gcc。
OCRE,OCRchie和clara OCR需要X window或gtk不太好编译。
tesseract 用VC ,10年前的东西,太老, 里面很多代码是STL的原型
Tesseract是一个开源OCR程序
之前就有看见有人在说,tesseract是10好几年前的东西,太老了。但是就在9个小时前,Tesseract OCR的开发人员用事实告诉世人,Tesseract OCR不但活着,还在不断地自我完善中。
2010年9月30日,Tesseract 正式发布了它的3.0版本(http://code.google.com/p/tesseract-ocr/)。
这次更新主要做了以下工作:
1. 为线程安全做了一些筹备工作:更改TessBaseAPI方法被非静态;为目录创建类的层次结构,以容纳实例数据,并开始移植代码到类当中;移动阈值代码到一个单独的类。
2. 增加了新的页面布局分析模块。
3. 新增HOCR输出。
4.添加Leptonica作为主要的图像输入输出及处理模块。现在,是否使用Leptonica是可选的,但是在未来的版本中,Leptonica是必须使用的模块。 http://www.leptonica.org/index.html
5. 重写歧义表(模糊表?),允许在fix_quotes中定义替换方式。
6. 新增TessdataManager,它可以将多个Tesseract特征数据文件合并成一个单一的文件。
7. 删除一些无用的代码。
8. 因为VC++ 6不能很好地应付模板的使用,它不再被Tesseract支持。
9. 对大部分的函数头注释进行了修改。
还有一点没有写在官方的release notes里面,但是我个人觉得是非常非常好的改进:支持识别更多的语言,其中就包括简体中文和繁体中文。
利用开源程序(ImageMagick+tesseract-ocr)实现图像验证码识别
分享到:
相关推荐
OCR识别开源库tesseract-3.00,tesseract-3.00可以交叉编译在ARM上使用,也可以在linux下使用
利用霍夫变换直线,检测出名片边界,计算倾斜角,对其校正,然后利用开源ocr库,对文字识别。
此为基于java技术的OCR文字识别软件源码,识别精准度较高。可直接使用,也可抽取其核心代码与其他java项目结合使用。
tesseract, Tesseract开源OCR引擎( 主库) 超立方体 这个软件包包含一个收费的OCR引擎 - libtesseract 和一个收费的命令行 程序- tesseract 。主要开发商是 Ray Smith 。 维护者是 Zdenko Podobny 。 有关贡献
google 开源ocr文字识别软件,可以自己训练数据,内置39.5MB中文文字识别库chi_sim.traineddata.附加jTessBoxEditor训练软件
pytesser,OCR in Python using ...是谷歌OCR开源项目的一个模块,可将图片中的文字转换成文本(主要是英文)。 压缩包包括: pytesser_v0.0.1.zip PIL-1.1.7.win32-py2.7.exe README.txt fonts_test.png ocr.py
Tesseract OCR关于此软件包包含一个OCR引擎-libtesseract和一个命令行程序-tesseract。 Tesseract 4添加了一个新的基于神经网络(LSTM)的OCR引擎,该引擎专注于行识别,Tesseract OCR关于此软件包包含一个OCR引擎-...
google 关于 ocr的一个开源库, 还没来的急看. 包含bin和src.
Java使用OCR示例代码,基于tesseract-ocr开源库,详细介绍了使用步骤,可对中英文进行识别
压缩包里有两个工程文件,一个是基于模板匹配的字符识别(标准模板库已经做好放进去了,不需要自己在做,直接运行就可以了),另一个是使用谷歌开源TESSERACT库的字符识别,可以实现手写字母(大小写均可)识别,...
OCR识别算法技术、OCR识别连接库接口、识别车牌号、识别身份证、识别房产证、OCR文字识别工具、免费在线文字识别、图片文字识别小程序、OCR识别工具、OCR扫描识别工具、图片转换文字、图片识别文字工具、图片识别...
JS 实现的 60 多种语言的 OCR 库.zip,100多种语言的纯javascript ocr
一个Google支持的开源的OCR图文识别开源项目。去持多语言(当前3.02 版本支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。使用中Tesseract 的识别率非常高。可以参考网上的相关资料进行对...
它使用一个名为tesseract的开源OCR库。Tesseract.js是一个开源JavaScript库,是通过在C和C ++中编写的着名TESERACT OCR引擎的EMScripten港。请访问(https://github.com/naptha/tesseract.js)以获得更多信息。为了...
https://github.com/myhub/tr 最新版不支持windows, 本资源将缺失的dll打包。包含: libtr.dll, onnxruntime.dll。下载后放在tr/tr目录下即可。
文字识别OCR开发包,并且有例子和文档,供大家学习,包括文字识别OCR开发包和Demo两个文件夹
Swift 实现的 OCR 识别库.zip,用swift编写快速简单的ocr库
由Google维护的开源OCR(OpticalCharacterRecognition,光学字符识别)引擎,特点是开源,免费,支持多语言,多平台,java实现图片文字识别程序OCR引擎。图片内容识别,3.0版本以后支持中文识别,