Python+Pillow+Pytesseract怎么实现验证码识别
发表于:2025-11-07 作者:千家信息网编辑
千家信息网最后更新 2025年11月07日,这篇"Python+Pillow+Pytesseract怎么实现验证码识别"文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章
千家信息网最后更新 2025年11月07日Python+Pillow+Pytesseract怎么实现验证码识别
这篇"Python+Pillow+Pytesseract怎么实现验证码识别"文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇"Python+Pillow+Pytesseract怎么实现验证码识别"文章吧。
一、环境配置
需要 pillow 和 pytesseract 这两个库,pip install 安装就好了。
pip install pillow -i http://pypi.douban.com/simple --trusted-host pypi.douban.compip install pytesseract -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
安装好Tesseract-OCR.exe
pytesseract 库的配置:搜索找到pytesseract.py,打开该.py文件,找到 tesseract_cmd,改变它的值为刚才安装 tesseract.exe 的路径。
二、验证码识别
识别验证码,需要先对图像进行预处理,去除会影响识别准确度的线条或噪点,提高识别准确度。
实例1
import cv2 as cvimport pytesseractfrom PIL import Imagedef recognize_text(image): # 边缘保留滤波 去噪 dst = cv.pyrMeanShiftFiltering(image, sp=10, sr=150) # 灰度图像 gray = cv.cvtColor(dst, cv.COLOR_BGR2GRAY) # 二值化 ret, binary = cv.threshold(gray, 0, 255, cv.THRESH_BINARY_INV | cv.THRESH_OTSU) # 形态学操作 腐蚀 膨胀 erode = cv.erode(binary, None, iterations=2) dilate = cv.dilate(erode, None, iterations=1) cv.imshow('dilate', dilate) # 逻辑运算 让背景为白色 字体为黑 便于识别 cv.bitwise_not(dilate, dilate) cv.imshow('binary-image', dilate) # 识别 test_message = Image.fromarray(dilate) text = pytesseract.image_to_string(test_message) print(f'识别结果:{text}')src = cv.imread(r'./test/044.png')cv.imshow('input image', src)recognize_text(src)cv.waitKey(0)cv.destroyAllWindows()运行效果如下:
识别结果:3n3D
Process finished with exit code 0

实例2
import cv2 as cvimport pytesseractfrom PIL import Imagedef recognize_text(image): # 边缘保留滤波 去噪 blur =cv.pyrMeanShiftFiltering(image, sp=8, sr=60) cv.imshow('dst', blur) # 灰度图像 gray = cv.cvtColor(blur, cv.COLOR_BGR2GRAY) # 二值化 ret, binary = cv.threshold(gray, 0, 255, cv.THRESH_BINARY_INV | cv.THRESH_OTSU) print(f'二值化自适应阈值:{ret}') cv.imshow('binary', binary) # 形态学操作 获取结构元素 开操作 kernel = cv.getStructuringElement(cv.MORPH_RECT, (3, 2)) bin1 = cv.morphologyEx(binary, cv.MORPH_OPEN, kernel) cv.imshow('bin1', bin1) kernel = cv.getStructuringElement(cv.MORPH_OPEN, (2, 3)) bin2 = cv.morphologyEx(bin1, cv.MORPH_OPEN, kernel) cv.imshow('bin2', bin2) # 逻辑运算 让背景为白色 字体为黑 便于识别 cv.bitwise_not(bin2, bin2) cv.imshow('binary-image', bin2) # 识别 test_message = Image.fromarray(bin2) text = pytesseract.image_to_string(test_message) print(f'识别结果:{text}')src = cv.imread(r'./test/045.png')cv.imshow('input image', src)recognize_text(src)cv.waitKey(0)cv.destroyAllWindows()运行效果如下:
二值化自适应阈值:181.0
识别结果:8A62N1
Process finished with exit code 0
实例3
import cv2 as cvimport pytesseractfrom PIL import Imagedef recognize_text(image): # 边缘保留滤波 去噪 blur = cv.pyrMeanShiftFiltering(image, sp=8, sr=60) cv.imshow('dst', blur) # 灰度图像 gray = cv.cvtColor(blur, cv.COLOR_BGR2GRAY) # 二值化 设置阈值 自适应阈值的话 黄色的4会提取不出来 ret, binary = cv.threshold(gray, 185, 255, cv.THRESH_BINARY_INV) print(f'二值化设置的阈值:{ret}') cv.imshow('binary', binary) # 逻辑运算 让背景为白色 字体为黑 便于识别 cv.bitwise_not(binary, binary) cv.imshow('bg_image', binary) # 识别 test_message = Image.fromarray(binary) text = pytesseract.image_to_string(test_message) print(f'识别结果:{text}')src = cv.imread(r'./test/045.jpg')cv.imshow('input image', src)recognize_text(src)cv.waitKey(0)cv.destroyAllWindows()运行效果如下:
二值化设置的阈值:185.0
识别结果:7364
Process finished with exit code 0

以上就是关于"Python+Pillow+Pytesseract怎么实现验证码识别"这篇文章的内容,相信大家都有了一定的了解,希望小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注行业资讯频道。
结果
阈值
验证
内容
图像
字体
实例
效果
灰度
白色
背景
边缘
逻辑
运算
运行
准确度
形态
形态学
文章
知识
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库带锁
苏州创新管理软件开发
阿里云服务器怎么释放
bind 数据库
开展网络安全宣传教育情况
怎么进行应用服务器配置
去哪接软件开发项目
刚入行的软件开发薪资
台州实惠软件开发
城市网络安全指挥中心
全球软件开发前端
谷歌服务器密码保存不了
技术路线怎么写软件开发
ensp网络技术实训总结
诺瓦软件开发环境
文华指数历史交易数据库
网络安全民营企业名单
单位企业的软件开发
突然断电导致数据库停止
对数据库的调用
软件测试与软件开发吧
华南理工大学网络安全考研
数据库学校班级查询学生
金融日网络安全知识
酒店订房系统数据库课程设计
怎么在数据库上建表格
21年网络安全宣传周的主题是
沧州导航软件开发
蓬江区粤信网络技术
网络安全板报