转载

发表于 2016年12月04日
浏览 (1,128)
评论 (0)

OCR识别验证码

最近在爬某网站，老是蹦出来验证码，就想着找个OCR破了这个验证码，然后就开始了OCR探索之旅。

首先简单说一下什么是OCR

OCR是（Optical Character Recognition， 光学字符识别 ）的简称，主要用途：

办公用途，用来识别图片里面的文字，可以高效率的录入图片类型文件。
识别网站验证码
详见维基百科或者百度百科

OCR识别的验证码原理

采集一批验证码，根据图片特点进行初步处理（二值化/灰度化/滤波/降噪等处理）
然后分割图片，旋转图片，模板选取，训练算法，让它更准确。
有兴趣的可以看一个Python实现的OCR识别验证码详细 demo , 实际操作过程挺有意思的，大家有兴趣了可以试试

OCR识别验证码的具体操作

首先我测试了一个百度开源的Node.js实现的OCR包

gitHub地址 https://github.com/netpi/baidu-ocr-api

安装也很简单直接按照官方的文档安装即可

发现百度的这个OCR包识别效果不太理想
然后经过一番Google和小伙伴们的推荐选择一个Google开源的 tesseract 这个是C++写的，直接融合到爬虫里不太方便，有外国朋友基于tesseract封装了一个Python的包pytesseract ,直接开箱即用，融入爬虫程序中。
百闻不如一run

ps(这里使用的操作系统是Ubuntu16.04；Python版本是2.7)
直接 pip install pytesseract 然后Python图片处理要用到PIL(Python Imaging Library) pip install PIL

原图片

写个简单的测试demo

看下识别结果

报错了，根据报错信息来看，是确实了什么文件，或者依赖lib

我跟踪了pytesseract的代码，发现是少了C++提供的OCR服务，因为pytesseract是调用的tesseract(C++写的)
然后安装tesseract sudo apt install tesseract

再run一下代码

整体结果还可以（倒数第四位识别错了），再训练一下准确率就更高了。

预知后事如何，且听下回分解

原文 https://wujunze.com/ocr_test.jsp

正文到此结束

所属分类：编程技术

本文标签： 网站百度 ip Google http 操作系统 id node API src js 代码 IO 测试 UI lib https GitHub 图片 Ubuntu 安装开源 git Node.js python
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

热门推荐

配置虚拟站点

浏览(10,034) 评论(20)
修改上传文件权限

浏览(11,458) 评论(18)
VPS 自我监控

浏览(10,252) 评论(23)
OpenVZ VPS 额外支持

浏览(10,331) 评论(17)
openfire数据库安装指南

浏览(19,828) 评论(0)
openfire协议支持指南

浏览(9,257) 评论(18)
openfire定制指南

浏览(11,371) 评论(17)
Caffe 深度学习框架上手教程

浏览(15,571) 评论(0)
ReactiveCocoa入门教程：第一部分

浏览(16,362) 评论(0)
开源HIDS-OSSEC使用实例:监测CC攻击

浏览(16,210) 评论(0)

相关文章

阿里云首购8折

Loading...

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

[HBLOG]公众号

HBLOG

HBLOG