千家信息网

怎么用Python和Tesseract识别图片文字

发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,这篇文章给大家分享的是有关怎么用Python和Tesseract识别图片文字的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。安装Linux 和 Mac 平台的安装非常简单,直
千家信息网最后更新 2025年12月02日怎么用Python和Tesseract识别图片文字

这篇文章给大家分享的是有关怎么用Python和Tesseract识别图片文字的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

安装

Linux 和 Mac 平台的安装非常简单,直接命令行安装即可,默认只有英文语言包,汉语包需要额外指定

sudo apt-get install tesseract-ocr  # ubuntu

brew install tesseract # macOS

Windows 平台需要二进制安装包,官方下载地址 https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows,安装时需要选择中文语言包才是识别汉字

配置

安装完成后,需要设置两个环境变量 $PATH$TESSDATA_PREFIX,如果不指定后面会报错,把 tessertact 的安装路径加入 PATH 变量中,TESSDATA_PREFIX 变量的值指定为语言包的路径

实战

Python-tesseract 是 tessertact 的 Python 封装包,它需要依赖图片处理库 PIL(Pillow),环境搭建完成后就可以开始做定制化开发了。

以下我以杜甫的《登高》作为 demo 从中提取出其中的文字

# pip install pytesseract 先安装依赖包
try:
import Image
except ImportError:
from PIL import Image
import pytesseract
# lang 指定中文简体
text = pytesseract.image_to_string(Image.open('dufu-denggao1.jpeg'), lang='chi_sim')
print(text)

输出结果:

风 急 天 高 猿 哨 哀 , 渚 清 沙 白 鸟 飞 回 。 无 边 落 木 萧 萧 下 , 不 尽 长 江 滚 滚 来 。 万 里 悲 秋 常 作 客 , 百 年 多 病 独 登 台 。 艰 难 苦 恨 繁 霜 鬓 , 漫 倒 新 停 浊 酒 杯 。

感谢各位的阅读!关于"怎么用Python和Tesseract识别图片文字"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

图片 文字 变量 语言 内容 平台 更多 环境 篇文章 路径 中文 不错 实用 两个 二进制 从中 只有 命令 地址 官方 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 阿里巴巴服务器运行游戏 什么样的服务器好看 王者荣耀换服务器 浙江浙京网络技术 反恐精英登录服务器信息 洛阳三胜网络技术公司怎么样 软件开发编程敲代码 三级数据库技术原题 b s 数据库开发 域服务器远程管理日志服务用途 sql是指哪个数据库 腾讯服务器连接失败请稍候重试 上海数据网络技术分类推广 大学生校园网络安全工作计划 阿尔比恩链手游接不到服务器 梦幻花样年华服务器在那个大区 宝山区网络技术咨询优化 未来网络安全保卫工作发展趋势 公安局要求网络安全协议 网络安全法规定等级 体能训练视频软件开发 创建数据库的步骤确立字段 网络安全对学生目的 反恐精英登录服务器信息 数据库修改数据回滚 网络代理服务器连接失败怎么解决 软件开发用什么扫毒软件好 来安网络安全检查 校园网络安全案例视频 佛山智能建模软件开发
0