MSER

形象一点解释这个原理就是：MSER对一幅已经处理成灰度的图像做二值化处理，这个处理的阈值从0到255递增，这个阈值的递增类似于在一片土地上做水平面的上升，随着水平面上升，高高低低凹凸不平的土地区域就会不断被淹没，这就是分水岭算法，而这个高低不同，就是图像中灰度值的不同。而在一幅含有文字的图像上，有些区域（比如文字）由于颜色（灰度值）是一致的，因此在水平面（阈值）持续增长的一段时间内都不会被覆盖，直到阈值涨到文字本身的灰度值时才会被淹没，这些区域就叫做最大稳定极值区域。

NMS

NMS是经常伴随图像区域检测的算法，作用是去除重复的区域，在人脸识别、物体检测等领域都经常使用，全称是非极大值抑制（non maximum suppression），顾名思义就是抑制不是极大值的元素，所以用在这里就是抑制不是最大框的框，也就是去除大框中包含的小框。

NMS的基本思想是遍历将所有的框得分排序，选中其中得分最高的框，然后遍历其余框找到和当前最高分的框的重叠面积（IOU）大于一定阈值的框，删除。然后继续这个过程，找另一个得分高的框，再删除IOU大于阈值的框，循环。

在这个例子中，就是设定一个IOU阈值（比如0.5，也就是如果两个框的重叠面积大于其中一个框的50%，那么就删除那个框），然后遍历所有框，对剩下的每个框，遍历判断其余框中与他重叠面积大于阈值的，则删除。最后剩下的就是不包含重叠部分的文本框了。

测试

测试图片

opencv中的MSER的使用和NMS后的矩形框MSER

import cv2
import numpy as np


def non_max_suppression_fast(boxes, overlapThresh):
    # 空数组检测
    if len(boxes) == 0:
        return []

        # 将类型转为float
    if boxes.dtype.kind == "i":
        boxes = boxes.astype("float")

    pick = []

    # 四个坐标数组
    x1 = boxes[:, 0]
    y1 = boxes[:, 1]
    x2 = boxes[:, 2]
    y2 = boxes[:, 3]

    area = (x2 - x1 + 1) * (y2 - y1 + 1)  # 计算面积数组
    idxs = np.argsort(y2)  # 返回的是右下角坐标从小到大的索引值

    # 开始遍历删除重复的框
    while len(idxs) > 0:
        # 将最右下方的框放入pick数组
        last = len(idxs) - 1
        i = idxs[last]
        pick.append(i)

        # 找到剩下的其余框中最大的坐标x1y1，和最小的坐标x2y2,
        xx1 = np.maximum(x1[i], x1[idxs[:last]])
        yy1 = np.maximum(y1[i], y1[idxs[:last]])
        xx2 = np.minimum(x2[i], x2[idxs[:last]])
        yy2 = np.minimum(y2[i], y2[idxs[:last]])

        # 计算重叠面积占对应框的比例
        w = np.maximum(0, xx2 - xx1 + 1)
        h = np.maximum(0, yy2 - yy1 + 1)
        overlap = (w * h) / area[idxs[:last]]

        # 如果占比大于阈值，则删除
        idxs = np.delete(idxs, np.concatenate(([last], np.where(overlap > overlapThresh)[0])))

    return boxes[pick].astype("int")


img = cv2.imread('test2.png')
vis = img.copy()  # 用于绘制矩形框图
orig = img.copy()  # 用于绘制不重叠的矩形框图
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)  # 得到灰度图
mser = cv2.MSER_create()  # 得到mser算法对象
regions, _ = mser.detectRegions(gray)  # 获取文本区域
hulls = [cv2.convexHull(p.reshape(-1, 1, 2)) for p in regions]  # 绘制文本区域
cv2.polylines(img, hulls, 1, (255, 0, 0))
cv2.namedWindow("img", 0)
cv2.resizeWindow("img", 800, 640)  # 限定显示图像的大小
cv2.imshow('img', img)
cv2.imwrite('img.jpg', img)

keep = []
# 绘制目前的矩形文本框
for c in hulls:
    x, y, w, h = cv2.boundingRect(c)
    keep.append([x, y, x + w, y + h])
    cv2.rectangle(vis, (x, y), (x + w, y + h), (255, 255, 0), 1)
print("[x] %d initial bounding boxes" % (len(keep)))
cv2.namedWindow("hulls", 0)
cv2.resizeWindow("hulls", 800, 640)
cv2.imshow("hulls", vis)
cv2.imwrite('hulls.jpg', vis)


# 筛选不重复的矩形框
keep2 = np.array(keep)
pick = non_max_suppression_fast(keep2, 0.5)
print("[x] after applying non-maximum, %d bounding boxes" % (len(pick)))
for (startX, startY, endX, endY) in pick:
    cv2.rectangle(orig, (startX, startY), (endX, endY), (255, 185, 120), 2)
cv2.namedWindow("After NMS", 0)
cv2.resizeWindow("After NMS", 800, 640)
cv2.imshow("After NMS", orig)
cv2.imwrite('afterNMS.jpg', orig)

cv2.waitKey(0)
cv2.destroyAllWindows()

img：

opencv中的MSER的使用和NMS后的矩形框MSER

hulls：

opencv中的MSER的使用和NMS后的矩形框MSER

使用NMS后的效果：

opencv中的MSER的使用和NMS后的矩形框MSER

reference：

https://www.jianshu.com/p/b5af24e2f9ff

opencv中的MSER的使用和NMS后的矩形框MSER

MSER

NMS

测试

继续阅读

Python验证码识别tesseract-ocr安装，报错解决

tess4j的简单使用doOCR异常汇总：

java实现阿里云图片文字识别

图片文字识别工具调研2.tesseract安装与使用3.python

LEADTOOLS WinRT OCR识别代码示例

场景文本检测（一）-可微分二值化在基于语义分割方法的场景文本检测中的应用动机和Contributions现存方法Methodology总结Ref

文本检测算法----DB、DBNet1. 摘要2. 算法3. 实验4. 结论

【百度OCR 封装篇】OCR封装只IOCR自定义模版或分类器封装两种调用方式

使用MODI（Microsoft Office Document Imaging）识别中文，但无法区分段落

主流深度学习OCR文字识别方法对比：Tesseract（LSTM）、CTPN+CRNN、Densenetopencv mser算法框出图片文字区域

【基于WPF+OneNote+Oracle的中文图片识别系统阶段总结】之篇三：批量处理后的txt文件入库处理篇三：批量处理后的txt文件入库处理

百度云 OCR 识别图片验证码

爬虫验证码识别_工具篇：安装pytesseract&Tesseract-OCR

应用移动端银行卡识别技术，实现APP端快捷绑定银行卡号

手写字符识别

Jaspersfot Studio Create Check OCR Font