转载

Tika结合Tesseract-OCR 实现光学汉字识别【附Java源码实现及真实测试数据】

OCR(Optical character recognition) —— 光学文字识别 ，是图像处理的一个重要分支，中文的识别具有一定挑战性，特别是手写体和草书的识别，是重要和热门的科学研究方向。可惜国内的科研院所，基本没有大量的高识别率的训练集—笔者联系过 北京语言大学 研究生一篇论文的作者，他们说有%90的正确识别率，结果只做了简单的2000字。真的是为了论文而论文。

斯坦福大学有个工程项目，专门做中文汉字的识别——欧美发达国家的科研院所更有 研究精神

提高识别率，训练集是关键！

提高识别率，训练集是关键！！

提高识别率，训练集是关键！！！

经过测试得出如下结论：

对于宋体，白色背景，非倾斜等，像素大于等于300dpi—识别率%100
英文和数字，识别率超过90%
特殊字符识别率不高
像素太低，识别率急剧下降
多种背景颜色变化，识别率极低
字体换成草书等，识别率大幅降低
电影屏幕字幕和网页截图识别率较低
扫描件如果字体太淡，太小，完全识别不出来
提高识别率，需要自己做训练集，工作量巨大的体力活（简体汉字最少 6753 个，混合一些复杂的，至少要 10000 个字符；不同字体要重新做，因为本质上是图形几何计算，国内科研院所和开源的做的不多—待确认）

Java源码实现，tika结合Tesseract-OCR

（ 1 ）源码如下(支持多个图片识别）

    @Test
    public void testCode() throws IOException, SAXException, TikaException, InterruptedException {
        List<String> fileNames = new ArrayList<>();
        fileNames.add("chi_eng.png");
        fileNames.add("chi_eng01.png");
        fileNames.add("chi_old.png");
        fileNames.add("chi-scan-75dpi.jpg");
        fileNames.add("chi-scan-100dpi.jpg");
        fileNames.add("chi-scan-300dpi.jpg");
        fileNames.add("chi-smartphone.jpg");
        fileNames.add("chi-subtitle-v1.jpg");
        fileNames.add("english00.png");
        fileNames.add("pdf_shaomiao.png");
        fileNames.add("test.tiff");
        fileNames.add("weather.png");

        // 转载请注明出处：https://www.cnblogs.com/NaughtyCat/p/how-to-install-tesseract-ocr-on-windows-and-centos.html
        TesseractOCRParser parser = new TesseractOCRParser();

        TesseractOCRConfig config = new TesseractOCRConfig();
        // 设置简体中文训练集
        config.setLanguage("chi_sim");
        // 设置Tesseract 安装路径
        config.setTesseractPath("C:/Program Files/Tesseract-OCR");
        // 设置train data 路径
        config.setTessdataPath("C:/Program Files/Tesseract-OCR/tessdata");

        ParseContext context = new ParseContext();
        context.set(TesseractOCRConfig.class, config);
        context.set(TesseractOCRParser.class, parser);

        fileNames.forEach(filename -> {
            BodyContentHandler handler = new BodyContentHandler();
            File file = new File("E:/tika/testData" + File.separator + filename);
            if (file.exists()) {
                Metadata metadata = new Metadata();
                try (InputStream stream = new FileInputStream(file)) {
                    parser.parse(stream, handler, metadata, context);
                } catch (Exception e) { }
                handler.toString();
            }
        });
    }
}

测试数据（图片）说明及下载地址

具体说明及测试效果请参见： https://ocr.space/blog/2015/03/best-ocr-software-for-chinese.html

相关测试图片请参见： https://github.com/A9T9/OCR-Benchmark

如何做自己的测试数据集

请参考官网： https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02

(2)原始图片及效果

图1

Tika结合Tesseract-OCR 实现光学汉字识别【附Java源码实现及真实测试数据】

转换效果如下：

Tika结合Tesseract-OCR 实现光学汉字识别【附Java源码实现及真实测试数据】

【结论】

300dpi，识别率： %100

图2

Tika结合Tesseract-OCR 实现光学汉字识别【附Java源码实现及真实测试数据】

转换效果如下：

Brief history

Tesseractwes orginally developed at HewlettPackard Laboratones Bristol and

atHewettPackard Co Greeley Colorado beween 1985 and 1994 wthsome

more changes made in 1996 to portto Windows and some C++zing in1998

In2005 Tesseract was open sourced by HP Since 2006 itis developed by Goosgle

Thelatest (LSTM based]j stableversionis4.10, released on July 7.2019.Latest source codes avaable from

master branch on GlHub.Openissues can be foundin ssue racker and Planning iki

Thelatest35 version 5 3.05.02 released onjune 19,2018.Latestsource code for3.055 avaable from

305 branch on GlHHub.There sno development forthisversion,butitcan be used forspecial cases .

see Regression offeatures from 30x

See Release Notes and Change Log formore detas ofthe releases-

Installing Tesseract

You can ettherInstall Tesseractvia prepulltbinary package or pulld iLfrom sourcey

Supported Complersare:

* GCC48 and above

* ang34and above

* MSVC 2015.2017.2019

Othercompllersmightwork butare notofially supportedl

Running Tesseract

Basiccommand line usage:

tesseract inagenane outputbase [-1 ]ang】 [--osn ocrenginenode] [--psn pagesegnode

[configfiles...]

Formore information aboutthe various command line options use esseract --henp or man tesseract .

Examples can befoundin thewiki

For developers

Developers can use Tbtessaract Cor

【结论】

英文，特殊符号等会识别失败。识别率： >%80

图3.

转换效果如下：

E g 气

Even as Tvanja praised 8e parties Envoyed i 功 i5 7el gzamt7 comgpi 地 08

Qchieveze1 Q 7W7Der- Ofsocial media lsers appeared crilical of er as-

Sesszet 0f 加 e Trip adiistration「5 role 加功 i5 endeavou7

IBM 表示不服 ,Google 不 care。下而让我们逐字逐句来看他们的论文

吧 , 对于争论的事情 , 自己下功夫搞清楚。

松贵莹坊办少

忠 : https:/ww.cnblogs-com/NaughtyCatpytranslate-of-google-

Quantum-supremacy-article-published-on-nature.html

Quantum supremacy using

a programmable

superconducting

processor

基于可编程的超导处理器实现的量子霸

权

动关盘源 ,https://doorg/10.1038/s41586-019-1666-5

煌收船 2019 乐 7 历 20 历

旋准 8 船 2019 乐 9 历 20 厂

坊终发疗 2019 知 10 月 23 厅

Abstract

引言

量子计算机吹牛遢说 , 对于特定的计算任务 , 基于量子处理器的计算

机 , 其速度相较于经典处理器呈指数级增长。根本的挑战在于构建一

【结论】

宋体，加粗，黑色——识别率%100；倾斜，绿色等——识别率：

%70

图4（扫描件）.

Tika结合Tesseract-OCR 实现光学汉字识别【附Java源码实现及真实测试数据】

转换效果如下：

节 P a

为客户服务是华为存在的睢一理由” 从公司层面

看 , 为客户创造价值的主业务流只有一个!

Ipo - nisgniedProductDevelopment

B croeis PaFA 4 辜蒙扁)

Unc - LomdTocash

芸 a npe waa8 2 菅墨

E Ig - ssueToResoliton 林

P L a 颤〉

n i t t

6 P: 01

IP0 主业务流包括 : MW 流程、0R 流程、IPD 流程

4 一

【结论】

pdf扫描件，只有比较大，比较粗的字能识别出来，颜色较淡的识别不出来

识别率：

约%10

图5.

Tika结合Tesseract-OCR 实现光学汉字识别【附Java源码实现及真实测试数据】

转化效果如下：

大行佳孔当自弼不。

。

巧者劳而春者忱 , 无能者无所必 , 作食而邀

游 , 陆若不系之舟。

。

Chacgyuisdt.

。

124565.

。

12256 dogdogunnn

。

【结论】

汉字、英文、数字混合

识别率：

%60~%70

图6（天气网页截图）

转换效果如下：

L f

全国 > 囚川 > 尿膳 > 坂区

今夺伟 8-15 天

llc/4rc

208 238 028 058

人 [ [ 92

c E E

无 RR 无 RR 无 RR 无 RR

< < < <

【结论】

背景颜色（蓝色，灰色，黑色、橙色）；字体颜色（黑色、白色）。识别率：

不到%10

图7.

Tika结合Tesseract-OCR 实现光学汉字识别【附Java源码实现及真实测试数据】

转换效果如下：

机器人餐厅

cra arenzanmu nnanmes

seeu xraguagpt. ssepumes

人吊 pahs ztpznaapsus anea

an sro an sessuassnet

e ssoangm crmazees aas

iusiaanorg.mmouz rpeae

snreenatesezur eeae t

+ngszensenapenecieme

矿 svapgzanohat

【结论】

75dpi，识别率：约为%5 【CoderBaby】

图8（电影字幕截图）.

Tika结合Tesseract-OCR 实现光学汉字识别【附Java源码实现及真实测试数据】

转换效果如下：

1 30

【结论】

背景颜色（渐变灰），字体为白色——识别率： %0

图9（古籍）.

转换效果如下：

茂长万灰咆

恍 “ 望泷 “ 松驱

明匹一图抚札狐

东非 “ 柳一吴

埕跃 X“ 埋煌弟

仪怀坂称鸟场 “

下泊聪遇林固 “

| 靴犹 “

【结论】

竖排，古籍版（需要“ chi_tra.traineddata 及“ chi_tra_vert.traineddata ”）—— 识别率： %0

图9（手机拍照图片）.

Tika结合Tesseract-OCR 实现光学汉字识别【附Java源码实现及真实测试数据】

转换效果如下：

在中国 , 餐厅里的菜通常很特别 , 但是有时候做菜和服务

的人也很特别 : 不久前昆山一家餐厅开业 , 这家餐厅从欢迎宰

人、点菜、制作到上菜 , 大部分工作都由机器人完成。餐厅经理

宋育刚对他的 “ 员工 “ 很满意。这些机咤人能理解 40 句日常生

活用语 , 因此可以与顾客交流。让宋育刚最满意的是 , 他的这些

员工们既不会生病也不会请假。充电两个小时后 , 它们就又能

投入使用了 , 因此它们要比普通员工优秀。对于顾客来说 , 技术

水平有没有达到能使这些机蹇人厨师很好地调味还不得而知。

不过 , 机器人厨师倒是非常令人期待。

【结论】

手机拍照图片，还算清晰的——识别率：

%100

参考：

1） https://stackoverflow.com/questions/23792373/installing-tesseract-ocr-on-centos-6

2） http://www.zmonster.me/2015/04/17/tesseract-install-usage.html

*****************************************************************************************************

精力有限，想法太多，专注做好一件事就行

我只是一个程序猿。 5年内把代码写好，技术博客字字推敲，坚持零拷贝和原创
写博客的意义在于 打磨文笔， 训练逻辑条理性，加深对知识的系统性理解；如果恰好又对别人有点帮助，那真是一件令人开心的事

*****************************************************************************************************

原文 http://www.cnblogs.com/NaughtyCat/p/tika-support-Tesseract-OCR-with-source-code-and-test-data.html

正文到此结束

所属分类： Java 编程技术

本文标签： 测试 https 数据 parse 博客 IO 2019 java git UI HTML http 图片 stream ip 安装 App src ORM ArrayList node centos CTO example Features 本质 windows cat 代码 Developer CRM 做自己 IBM Ipo GitHub 开源 2015 专注 tab tar Google 程序猿下载 id 源码 SOA list ACE Master
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

Tika结合Tesseract-OCR 实现光学汉字识别【附Java源码实现及真实测试数据】

经过测试得出如下结论：

（ 1 ）源码如下(支持多个图片识别）

(2)原始图片及效果

图1

转换效果如下：

【结论】

图2

转换效果如下：

图3.

转换效果如下：

图4（扫描件）.

转换效果如下：

图5.

转化效果如下：

图8（电影字幕截图）.

【结论】

【结论】

转换效果如下：

精力有限，想法太多，专注做好一件事就行

热门推荐

相关文章

说给你听

本文目录

随机标签

书籍教程

近期评论

网站信息

其他链接

关于本站

问题交流