python中怎么利用jieba模块提取关键词
发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,python中怎么利用jieba模块提取关键词,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。1.读取一个用户的全部数据时,注意区分rea
千家信息网最后更新 2025年12月02日python中怎么利用jieba模块提取关键词
python中怎么利用jieba模块提取关键词,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。
1.读取一个用户的全部数据时,注意区分read(), readline()和readlines()的区别,read()读取文件全部内容并存在一个字符串变量中,readline()每次只读取文件里面的一行,readlines()返回一个行的列表。
2.注意将一个列表以字符串表达的写法:','.join(list).例如:list = [1,2,3],则可输出1,2,3
代码如下:

文本分析--关键词获取(jieba分词器,TF-IDF模型)
关键词获取可以通过两种方式来获取:
1、在使用jieba分词对文本进行处理之后,可以通过统计词频来获取关键词:jieba.analyse.extract_tags(news, topK=10),获取词频在前10的作为关键词。
2、使用TF-IDF权重来进行关键词获取,首先需要对文本构建词频矩阵,其次才能使用向量求TF-IDF值。
# -*-coding:utf-8-*-
import uniout # 编码格式,解决中文输出乱码问题
import jieba.analyse
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
"""
TF-IDF权重:
1、CountVectorizer 构建词频矩阵
2、TfidfTransformer 构建tfidf权值计算
3、文本的关键字
4、对应的tfidf矩阵
"""
# 读取文件
def read_news():
news = open('news.txt').read()
return news
# jieba分词器通过词频获取关键词
def jieba_keywords(news):
keywords = jieba.analyse.extract_tags(news, topK=10)
print keywords
def tfidf_keywords():
# 00、读取文件,一行就是一个文档,将所有文档输出到一个list中
corpus = []
for line in open('news.txt', 'r').readlines():
corpus.append(line)
# 01、构建词频矩阵,将文本中的词语转换成词频矩阵
vectorizer = CountVectorizer()
# a[i][j]:表示j词在第i个文本中的词频
X = vectorizer.fit_transform(corpus)
print X # 词频矩阵
# 02、构建TFIDF权值
transformer = TfidfTransformer()
# 计算tfidf值
tfidf = transformer.fit_transform(X)
# 03、获取词袋模型中的关键词
word = vectorizer.get_feature_names()
# tfidf矩阵
weight = tfidf.toarray()
# 打印特征文本
print len(word)
for j in range(len(word)):
print word[j]
# 打印权重
for i in range(len(weight)):
for j in range(len(word)):
print weight[i][j]
# print '\n'
if __name__ == '__main__':
news = read_news()
jieba_keywords(news)
tfidf_keywords()
看完上述内容,你们掌握python中怎么利用jieba模块提取关键词的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注行业资讯频道,感谢各位的阅读!
关键
关键词
词频
文本
矩阵
文件
内容
权重
问题
输出
模块
一行
可以通过
字符
字符串
文档
方法
更多
模型
束手无策
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
科技互联网的股票代码
uhs数据库
重庆天恒互联网科技集团
东莞武夷山软件开发
CSGO服务器正在连接
成都博软软件开发公司
网络安全什么是弱口令
java软件开发的目的
顺德八爪鱼网络技术有限公司
淄博联想服务器代理测评
北京新华互联网科技有限公司
思科网络技术知识总结
计算互联网科技网络
数据库输入出错
山东微商分销系统软件开发
rdp远程连接服务器
京东云服务器存储安全吗
数据库版本晚于当前
青浦区创新数据库服务商前景
数据库 表内约束
学习网络安全可以干什么
嘉定区技术软件开发制造价格
网络安全技术比武
软件开发的项目分解
嵌入式软件开发推荐
搭建游戏服务器推荐云服务器
类似兴盛优选软件开发
mongodb列出数据库
广州万美印刷软件开发公司
客户服务器怎么操作