python分词工具有哪些及怎么用
发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,这篇文章主要介绍"python分词工具有哪些及怎么用"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"python分词工具有哪些及怎么用"文章能帮助大家解决问题。
千家信息网最后更新 2025年12月02日python分词工具有哪些及怎么用
这篇文章主要介绍"python分词工具有哪些及怎么用"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"python分词工具有哪些及怎么用"文章能帮助大家解决问题。
1. jieba 分词
"结巴"分词,GitHub最受欢迎的分词工具,立志做最好的 Python 中文分词组件,支持多种分词模式,支持自定义词典。
github star:26k
代码示例
import jieba
strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]
for str in strs:
seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
print("Paddle Mode: " + '/'.join(list(seg_list)))
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print("新词识别:", ",".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print("搜索引擎模式:", ".join(seg_list))输出:
【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
【精确模式】: 我/ 来到/ 北京/ 清华大学
【新词识别】:他, 来到, 了, 网易, 杭研, 大厦 (此处,"杭研"并没有在词典中,但是也被Viterbi算法识别出来了)
【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造2. pkuseg 分词
pkuseg 是北大语言计算与机器学习研究组开源的一款分词工具,它的特点是支持多领域分词,目前支持新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型,用户可以自由地选择不同的模型。相比通用分词工具,它的分词准确率更高 。
github star:5.4k
代码示例
import pkuseg
seg = pkuseg.pkuseg() # 以默认配置加载模型
text = seg.cut('python是一门很棒的语言') # 进行分词
print(text)
输出
['python', '是', '一', '门', '很', '棒', '的', '语言']
3. FoolNLTK 分词
基于BiLSTM模型训练而成,据说可能是最准的开源中文分词,同样支持用户自定义词典。
GitHub star: 1.6k
代码示例
import fool
text = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']4. THULAC
THULAC由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包。具有词性标注功能,能分析出某个词是名词还是动词或者形容词。
github star:1.5k
代码示例1
代码示例1
import thulac
thu1 = thulac.thulac() #默认模式
text = thu1.cut("我爱北京天安门", text=True) #进行一句话分词
print(text) # 我_r 爱_v 北京_ns 天安门_ns
代码示例2
thu1 = thulac.thulac(seg_only=True) #只进行分词,不进行词性标注
thu1.cut_f("input.txt", "output.txt") #对input.txt文件内容进行分词,输出到output.txt
关于"python分词工具有哪些及怎么用"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注行业资讯频道,小编每天都会为大家更新不同的知识点。
模式
大学
北京
清华
代码
示例
清华大学
领域
支持
精确
工具
模型
科学
语言
中国
引擎
搜索引擎
知识
词典
京都
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
进软件开发都要笔试吗
DBC2000数据库考试
对合肥论坛开展网络安全检查
hge装备数据库
临床路径数据库
BTC服务器是多少年
网络安全受骗数据
世界战争英雄新手玩哪个服务器
思迅的数据库端口在哪看
连云港定制软件开发多少钱
v2rayNg启动服务器失败
电脑app编程软件开发
柴米油盐酱醋茶吉他谱软件开发
上海可视化智慧社区软件开发
王国纪元怎么开服务器
模拟腹腔镜软件开发
郴州市政府网络安全
互联网是科技文化活动吗
清除服务器dns缓存
变电站网络安全演练方案
数据库R-S=0
软件开发的申请理由
软件开发专业前景
云数据库技术支持
代理服务器代理上传吗
才正软件开发有限公司
清华合肥研究院软件开发
常州智能化软件开发商家
计算机应用软件开发的范围
和网络技术有关的职业