天天看点

OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换

OCR文本扫描 轮廓检测 透视变换

本项目和源代码来自唐宇迪opencv项目实战

OCR文本识别

什么是OCR,百度里的定义是:

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

输入一张图,然后扫描出其中文字

OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换
OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换

算法步骤

1、导入图片

image = cv2.imread('receipt.jpg')
           

2、图片与处理

resize 操作

resize函数的作用是按照原图像相同长宽比,当给定长(height)或者宽(width)时将原图resize成与原图像同比例的大小。

至于这一步为什么要进行resize操作,我分析

1 实验使用的图像多为手机拍摄的图片,图片大小至少为3500*4000,在imshow(),在屏幕显示并不能像是完整的图像,不利于观察。

该函数的返回值是resize后的图片;参数是原图像和指定的变换后的width或height值。

接着对图像进一步操作

Canny边缘检测步骤

1、canny边缘检测
  1. 使用高斯滤波器,以平滑图像,滤除噪声。
               
  2. 计算图像中每个像素点的梯度强度和方向。
               
  3. 应用非极大值(Non-Maximum Suppression)抑制,以消除边缘检测带来的杂散响应。
               
  4. 应用双阈值(Double-Threshold)检测来确定真实的和潜在的边缘。
               
  5. 通过抑制孤立的弱边缘最终完成边缘检测。
               

1、高斯滤波器:通过高斯分布去除噪点

OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换

2、计算Gx和Gy

OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换

3、非极大值抑制

OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换

4、双阈值检测

OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换
import cv2 #opencv读取的格式是BGR
import numpy as np
import matplotlib.pyplot as plt#Matplotlib是RGB

def cv_show(name,img):
    cv2.imshow(name,img)
    #等待时间,毫秒级,0表示任意键终止
    cv2.waitKey(0)#任意键终止
    cv2.destroyAllWindows()
    
img=cv2.imread('lena.jpg',cv2.IMREAD_GRAYSCALE)

img1=cv2.Canny(img,120,250)
img2=cv2.Canny(img,50,100)
res=np.hstack((img1,img2))
cv_show('res',res)
           

对比图:

OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换

Canny边缘检测之前需要先降噪----高斯滤波

GaussianBlur(src,ksize,sigmaX [,dst [,sigmaY [,borderType]]])-> dst

第一个参数是输入图像,可以是Mat类型,图像深度为CV_8U、CV_16U、CV_16S、CV_32F、CV_64F。

第二个参数是输出图像,与输入图像有相同的类型和尺寸。

Size ksize: 高斯内核大小,这个尺寸与前面两个滤波kernel尺寸不同,ksize.width和ksize.height可以不相同但是这两个值必须为正奇数,如果这两个值为0,他们的值将由sigma计算。

double sigmaX: 高斯核函数在X方向上的标准偏差

double sigmaY: 高斯核函数在Y方向上的标准偏差,如果sigmaY是0,则函数会自动将sigmaY的值设置为与sigmaX相同的值,如果sigmaX和sigmaY都是0,这两个值将由ksize.width和ksize.height计算而来。

Canny边缘检测函数

canny = cv2.Canny(gauss, 75, 200)

第一个参数时输入的图像,第二个参数是MinVal,第三个参数是MaxVal。

如果该点的梯度大于MaxVal, 则将该点处理为边界。如果该点的梯度大于MinVal且小于MaxVal,则抗癌电视都与边界相连,如果相连则将该点处理为边界,否则不是边界。如果该点小于MinVal则该点不是边界。

# 预处理
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)#灰度
gray = cv2.GaussianBlur(gray, (5, 5), 0)#高斯滤波
edged = cv2.Canny(gray, 75, 200)#边缘检测:双阈值检测,75为mix,200为max。让边缘都成白色,其余为黑色

# 展示预处理结果
print("STEP 1: 边缘检测")
cv_show("Image", image)
cv_show("Edged", edged)
           
OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换

轮廓检测

查找轮廓,轮廓检测使用的模型是RETR_LIST,检测所有轮廓, 并将其保存在一条链表中

cv2.findContours(img, mode, methord)

下表列出了轮廓检测的模型mode

MODE 注释
RETR_EXTERNAL 只检测最外面的轮廓
RETR_LIST 检索所有轮廓,并将其保存到一条链表中
RETR_CCOMP 检索所有轮廓,并将他们组织为两层 ,顶层是各部分的外界边界,第二层是空洞的边界
RETR_TREE 检测所有轮廓,并重构嵌套轮廓的整个层次

检测到所有轮廓后根据轮廓面积大小对轮廓进行排序,并保留前五个,画出这按照面积排序的前五个轮廓(在绘制轮廓之前别忘了复制原图像,否则显示原图形也会被更改。

OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换

轮廓近似

定义一个循环,遍历轮廓,完成轮廓近似的操作。

peri = cv2.arcLength(c, True)

先计算出轮廓的周长,然后以轮廓周长乘以一个百分比作为轮廓近似的精度。

approx = cv2.approxPolyDP(c, 0.02*peri, True)

True表示轮廓是封闭的

而轮廓近似的返回值是能够包含图像的点的集合。既然是逐个点确定,又包含了整个图像,那一定是从最大的轮廓开始。当返回值的长度为4,即返回点的个数为4时,说明确定的就是能将最外面的最大轮廓包围的四边形的四个顶点。

透视变换

透视变换(Perspective Transformation)是将成像投影到一个新的视平面(Viewing Plane),也称作投影映射(Projective Mapping)。如下图,通过透视变换ABC变换到A’B’C’。

OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换

对于视角变换,我们需要一个 3x3 变换矩阵。在变换前后直线还是直线。

要构建这个变换矩阵,你需要在输入图像上找 4 个点,以及他们在输出图像上对应的位置。这四个点中的任意三个都不能共线。这个变换矩阵可以有函数cv2.getPerspectiveTransform() 构建。然后把这个矩阵传给函数cv2.warpPerspective。

1、cv2.getPerspectiveTransform(src, dst)

参数说明:

src:源图像中待测矩形的四点坐标
sdt:目标图像中矩形的四点坐标
           

返回由源图像中矩形到目标图像矩形变换的矩阵

2、cv2.warpPerspective(src, M, dsize[, dst[, flags[, borderMode[, borderValue]]]])

参数为:

src:输入图像

M:变换矩阵

dsize:目标图像shape

flags:插值方式,interpolation方法INTER_LINEAR或INTER_NEAREST

borderMode:边界补偿方式,BORDER_CONSTANT or BORDER_REPLICATE

borderValue:边界补偿大小,常值,默认为0

3、cv2.perspectiveTransform(src, m[, dst])

参数:

src:输入的2通道或者3通道的图片

m:变换矩阵

返回的是相同size的图片

4、区别

warpPerspective适用于图像。perspectiveTransform适用于一组点。

透视变换有很多有趣的应用,比如可以用来做图像倾斜校正

自定义函数 order_points()
def order_points(pts):
	# 一共4个坐标点
	rect = np.zeros((4, 2), dtype = "float32")

	# 按顺序找到对应坐标0123分别是 左上,右上,右下,左下
	# 计算左上,右下
	s = pts.sum(axis = 1)
	rect[0] = pts[np.argmin(s)]
	rect[2] = pts[np.argmax(s)]

	# 计算右上和左下
	diff = np.diff(pts, axis = 1)
	rect[1] = pts[np.argmin(diff)]
	rect[3] = pts[np.argmax(diff)]

	return rect
           

程序中定义了两个函数,order_point函数用一种方法来分辨这四个定位点分别对应于四边形的那个顶点,简单说就是给四个点起名字。

左下(bl), 右下(br), 右上(tr), 左上(tl),并将四个点按顺势者或逆时针依次存放。从那个点开始存放不重要,关键是要通过这四个点的坐标关系确定每一个点分别对应(四边形)的哪一个顶点。简单说来就是给每一个点起了一个代号,方便使用它,后面有用。

第二个函数 four_point_transform(image, pts)进行透视变换了。首先调用函数order_point,使用这四个起好名字的点。根据几个关系利用公式 s = ((x2-x1)^2 + (y2-y1))2)1/2 。因为四个点确定的近似轮廓不一定是矩形,所以分别取长和宽最大长度,

OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换

自定义函数 def four_point_transform()

def four_point_transform(image, pts):
	# 获取输入坐标点
	rect = order_points(pts)
	(tl, tr, br, bl) = rect

	# 计算输入的w和h值
	widthA = np.sqrt(((br[0] - bl[0]) ** 2) + ((br[1] - bl[1]) ** 2))   #使用的公式s = ((x2-x1)^2  + (y2-y1))^2)^1/2 算出两边宽度
	widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + ((tr[1] - tl[1]) ** 2))
	maxWidth = max(int(widthA), int(widthB))

	heightA = np.sqrt(((tr[0] - br[0]) ** 2) + ((tr[1] - br[1]) ** 2))
	heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + ((tl[1] - bl[1]) ** 2))
	maxHeight = max(int(heightA), int(heightB))

	# 变换后对应坐标位置
	dst = np.array([
		[0, 0],
		[maxWidth - 1, 0],
		[maxWidth - 1, maxHeight - 1],
		[0, maxHeight - 1]], dtype = "float32")

	# 计算变换矩阵
	M = cv2.getPerspectiveTransform(rect, dst)
	warped = cv2.warpPerspective(image, M, (maxWidth, maxHeight))

	# 返回变换后结果
	return warped
           

dst对应的是与原图像中轮廓大小相同,只是进行了坐标变换的图像。左上角坐标点为(0,0),图像的长、宽分别为四边形轮廓长、宽最大值的四个定位点。将原图像中卡片的轮廓抠出来,变换了坐标。

透视变换函数包含在自定义函数four_point_transform()中

透视变换就是将原始的四个定位点,变换后定位点分别对应dst(左上角的定位点是(0, 0))中的四个定位点坐标。

M = cv2.getPerspectiveTransform(rect, dst)
warped = cv2.warpPerspective(image, M, (maxWidth, maxHeight))
           

返回时M是由原坐标透视变换到目标坐标点的变换矩阵。第二个返回图像的透视变换函数cv2.warpPerspective(image, M, (maxWidth, maxHeight))第一个参数是原始图像,第二个参数是变换矩阵(原图片中的小卡片是一个轮廓,变换后图像中小卡片充满了整张图像), 第三个参数是变换后图像的长和宽(场合宽是前面计算出的轮廓长宽取最大值的结果)。

最后该函数返回的结果是透视变换后的图像。

warped = four_point_transform(image, screenCnt.reshape(4, 2))
warped = four_point_transform(orig, screenCnt.reshape(4, 2)*ratio)
           

接下来就是灰度化、二值化一条龙服务。

终于把这张小卡片从图像中单独扣出来了!

结果如图所示:

OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换

调用four_point_transform函数

warped = four_point_transform(orig, screenCnt.reshape(4, 2)*ratio)

说一下为什么要乘这个ratio

因为之前做的一系列图像处理操作(最后得到了近似轮廓的四个定位点)都是在resize后的图像上进行的。还记得resize函数是怎么做的吗,参数中给定width或者height的值,按照与原图像相同的比例对图像进行缩放。那么图像中每一个点的坐标都发生了相应的变化(不是面积大小,而是点的坐标发生了变化)

用plt显示图片验证一下

所以我们在程序一开始就把原图坐标和变化后图像的坐标的比例ratio记录下来。

我们刚刚说是图片上的每个像素点坐标发生了相应的变化,那么我们轮廓近似的四个定位点当然不例外就在其中。

所以相当于是吧原图像上的卡片四角的点坐标透视变换到与原图像相同大小的平面上,而four_point_transform函数的第二个参数scrrnCnt

中存储的坐标点应该与第一个参数中图像大小保持一致(都是原图或者都是resize变换后的,一致即可)。那我为什么要从一开始就做resize这一步呢?(因为图太大电脑屏幕放不下, 我要是有个巨大的屏幕是不是会省去很多麻烦)。

对于 M = cv2.getPerspectiveTransform(rect, dst)

以下是原理:实际上就是先把歪的二维原图转化为三维,再转化为二维,在这其中,先把二维的(x,y)转化为(x,y,1),然后乘一个33的矩阵,转化为(x,y,z),最后转化为二维(x/z,y/z)。

因为33的矩阵中,有8个未知数,就有8个方程,最后一位是1,一组坐标可以确定2个方程,因此需要4组坐标,即一个矩形的四个角的坐标。这个函数就是帮我们算矩阵m

OCR文本扫描 轮廓检测 透视变换-唐宇迪笔记OCR文本扫描 轮廓检测 透视变换

3 调用pytesseract进行OCR文本识别

接着在test.py中 import pytesseract 进行OCR识别

# https://digi.bib.uni-mannheim.de/tesseract/
# 配置环境变量如E:\Program Files (x86)\Tesseract-OCR
# tesseract -v进行测试
# tesseract XXX.png 得到结果 
# pip install pytesseract
# anaconda lib site-packges pytesseract pytesseract.py
# tesseract_cmd 修改为绝对路径即可
from PIL import Image
import pytesseract
import cv2
import os

preprocess = 'blur' #thresh

image = cv2.imread('scan.jpg')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

if preprocess == "thresh":
    gray = cv2.threshold(gray, 0, 255,cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]

if preprocess == "blur":
    gray = cv2.medianBlur(gray, 3)
    
filename = "{}.png".format(os.getpid())
cv2.imwrite(filename, gray)
    
text = pytesseract.image_to_string(Image.open(filename))
print(text)
os.remove(filename)

cv2.imshow("Image", image)
cv2.imshow("Output", gray)
cv2.waitKey(0)                                   

           

首先对图像进行灰度化处理, 然后进行均值滤波。

gray = cv2.medianBlur(gray, 3)

调用pytesseract.image_to_string()函数

pytesseract.image_to_string(Image.open(filename))

感谢https://blog.csdn.net/weixin_43227526/article/details/104692787

上一篇: 舵机控制3.17
下一篇: 权限验证MVC