验证码字符图像识别(数字字母混合) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
XiiLii
V2EX    Python

验证码字符图像识别(数字字母混合)

  •  
  •   XiiLii 2018-08-26 21:22:43 +08:00 3590 次点击
    这是一个创建于 2632 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需要识别的验证码图像,其中包含 4 个字符(数字字母)

    验证码

    验证码图片来源: http://my.cnki.net/elibregister/commonRegister.aspx

    思路

    1. 灰度化:将图像转为灰度图像,即一个像素只有一种色阶(有 256 种不同灰度),值为 0 表示像素最黑,值为 255 表示像素最白。
    2. 二值化:将图像转为黑白图像,即一个像素只有黑白两种状态,不是黑就是白,没有灰色,值为 0 表示像素最黑,值为 1 表示像素最白.
    3. 图像转字符串:利用工具将图像中的字符串识别出来

    前面两步都是对图像进行识别前处理,目的是提高计算机识别的准确度,毕竟计算机本身不能理解图像,一个像素值的微小变化都有可能导致错误识别

    代码

    import tesserocr from PIL import Image image = Image.open("87FW.jpg") # 灰度化 image = image.convert("L") # 二值化,传入的是数字 1,默认阈值是 127。一般不推荐使用,因为不够灵活 # image = image.convert("1") # 另一种二值化。自定义灰度,将灰度值在 115 以上的设置 1 (白色),其它设为 0 (黑色),相当于将阈值设置成了 115 table = [1] * 256 for i in range(256): table[i] = 0 if i > 115: break image = image.point(table, "1") print(tesserocr.image_to_text(image)) 

    打印:

    87FW 

    所谓的阈( yu )值是指将不同的像素值分开的那个临界值

    上面的代码没有保存图片,为了直观得看到经过不同的处理后图像的区别,下面展示的是两张图像分别是灰度处理和二值化(阈值 115 )后的图像

    灰度处理

    二值化(阈值 115 )

    下面将每种不同阈值的图像保存至本地,主要代码如下:

    ... image = Image.open("87FW.jpg") image = image.convert("L") table = [1] * 256 for i in range(256): table[i] = 0 image.point(table, "1").save(f"87FW_{i}.jpg") 

    阈值为 0 代表将所有像素处理成白色(没有黑色);阈值为 255 代表将所有像素处理成黑色。

    不同阈值的图片

    可以发现阈值设置得越低,白色越多,能看得到的验证码(黑色)就少了,因为大部分灰度都处理成白色;反之,若阈值设置越大,黑色越多,更多的干扰像素处理成和验证码一样的黑色。

    以下是将上面不同阈值的图片制作成的一个 gif 动态图像,可以看到如果阈值设定在 0 至 255 这个过程中,验证码会呈现出不同效果

    阈值递增的动态图像

    阈值是一个很难把控的关键,阈值设置大或小都会影响识别的准确性,以下是遍历所有阈值,测试阈值在哪个区间可以识别出正确的验证码。注:由于没有做优化,整个过程会比较慢

    >>> for i in range(256): ... if tesserocr.image_to_text(Image.open(f"87FW_{i}.jpg")).strip()=="87FW": ... print(i, end=" ") ... 109 110 112 113 114 115 116 117 118 119 120 122 123 124 169 170 171 172 173 

    在 256 个阈值中只有 19 个(不足 7.42%)阈值可以正确识别出验证码,仔细察觉可以发现阈值区间被分成了多个,分别是 109 ~ 110、112 ~ 120、122 ~ 124、169 ~ 173,说明阈值区间不一定具有连续性。更糟糕的是,不同的验证码图片,能准确识别出其中验证码的阈值的数量、区间范围、区间数等都很可能不同。当然还有很多问题,比如选择一个“不恰当”的阈值导致图像处理过度,只识别出其中 3 个字符,不要试图随机添加一个字母或数字,因为需要考虑具体是哪个位置的字符没识别出来,这样瞎猜几乎是很难一次就命中的,好点的做法是:当识别出来的字符不足时可以尝试换一个阈值处理图像,所以能识别出验证码是概率事件。毕竟在正常的人机识别中,识别一个验证码通常只有一次机会,识别错了就会出现新的验证码,没有换阈值再重新试一次的机会,不过好在通常阈值的范围都是可以缩小的,比如可以忽略小于 70 和大于 200 的这些图像处理过度的阈值(正常人都很难识别是什么数字、字母),这样能命中的概率就会大大提高。

    image.convert("1") 的默认阈值是 127,在上面 19 个可以准确识别验证码的阈值中没有 127,这也就是为什么直接使用 image.convert("1") 方法二值化的图像无法被准确识别出其中的验证码

    上面的验证码还算容易处理的,如果干扰像素的灰度值与验证码灰度差别比较大,可用上面的方法;但如果遇到干扰线条的灰度与验证码差不多、验证码重叠等情况,上面对图像仅做简单处理的方法就很难奏效了。这时就需要用到机器学习技术对识别器进行训练,听说识别率几乎 100%!

    参考资料:

    • 《 Python3 网络爬虫开发实战》 8.1 图形验证码的识别

    阅读更多

    zarte
        1
    zarte  
       2018-08-27 10:05:58 +08:00
    然后哩?难的是在拆分成单字那一步
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5869 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 44ms UTC 02:03 PVG 10:03 LAX 18:03 JFK 21:03
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86