Python处理验证码：基于PIL和Tesseract的数字计算识别处理思路

如图，我们在使用python自动化的时候经常会遇到很多各式各样的验证码。这个是一个数字加法的验证码。

干扰项里包含完整的数字、字母信息，普通的OCR识别可能不是很准确。

但是不管怎么样，咱们先把必要的环境搭建起来，试一下Tesseract的识别结果吧。

1、安装Tesseract：

首先需要下载Tesseract的安装包官方网址：

https://digi.bib.uni-mannheim.de/tesseract/，网上的教程很多推荐安装名称里不带dev的正式版，据说更稳定

配置Tesseract：

安装完毕之后需要配置一下环境变量，分为两步：

1、在path里加入安装路径，及安装路径内的tessdata文件夹路径。

2、新建系统变量{TESSDATA_PREFIX：E:\Program Files (x86)\Tesseract-OCR\tessdata} 这里变量名是固定的TESSDATA_PREFIX，值是刚刚提到的安装路径内下一级tessdata文件夹的完整路径

然后命令行里安装pytesseract：

完成以上步骤之后，请重新启动电脑。

图片无法处理识别：

直接调用ocr识别出结果的话，只需要3行代码：

但是对于这个验证码的效果不是非常好，比如：

要么是没有结果，要么就是一堆乱七八糟的东西。

这样肯定是用不了的

那么只能先处理一下图片了

图片处理识别：

我下载了20张这个网站的二维码，发现了以下规律：

1、验证码内容一定包含“ = 2位数字+2位数字”的

2、验证码内容的颜色是随机的。

3、验证码内容的位置应该是固定的（20张图片的加号都在同一位置）

4、验证码图片的干扰内容包含字母、数字、符号

5、验证码图片的干扰内容颜色没有跟主要内容一模一样，但是每张图的干扰项一定包含主要内容颜色相近的部分。

可以看到，根据字体的不同，显示的时候，主干是棕色的，但是构成这个字的边缘颜色是稍微淡一些的。不过20张图里都没有发现有干扰项的颜色跟主要内容颜色一模一样。

所以我的想法是因为存在主干的近似色，所以主要的滤波手段可能导致把图片变得更难处理的可能性，所以不如直接获取主干颜色，其他像素不是主干颜色的全部以白色替代，删除干扰项之后再进行识别。

主干颜色可以使用固定的加号的正中间那一点的坐标获取。（80，23）（80，24）

Python代码如下：

文件如下：

结语：

准确率我大概看了一下，应该是100%的。以上算是成功破解了对方网站的验证码。

验证码的识别整体思路应该就是这样子了，当然我举得例子是比较简单的验证码。还有各种麻烦的验证码，未来可能需要用到截取、卷积、滤波、清洗等等方法，需要根据实际的情况灵活地使用，但是整体的思路就是：

找到验证码规律，根据规律清洗干扰噪点，然后识别。希望可以启发到大家。

最后的最后，现在已经可以获取验证码的字符串了，计算结果非常简单我就不做了。有兴趣的可以试试，我会把所有图片、源代码打包，大家可以下载试一下。

Tesseract安装的时候，系统变量哪里2步都不能少，少一个程序执行就会报错，切记

Python处理验证码：基于PIL和Tesseract的数字计算识别处理思路

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入