Scikit-learn文本聚类实例分析
发表于:2025-11-09 作者:千家信息网编辑
千家信息网最后更新 2025年11月09日,Scikit-learn文本聚类实例分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。# -*- coding=utf-
千家信息网最后更新 2025年11月09日Scikit-learn文本聚类实例分析
Scikit-learn文本聚类实例分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
# -*- coding=utf-8 -*-"""text category"""from sklearn.datasets import fetch_20newsgroupsfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.naive_bayes import MultinomialNBcategories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med']twenty_train = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=42)print len(twenty_train.data)len(twenty_train.filenames)count_vect = CountVectorizer()X_train_counts = count_vect.fit_transform(twenty_train.data)print X_train_counts.shapeprint count_vect.vocabulary_.get('algorithm')tf_transformer = TfidfTransformer(use_idf=False).fit(X_train_counts)X_train_tf = tf_transformer.transform(X_train_counts)print X_train_tf.shapetfidf_transformer = TfidfTransformer()X_train_tfidf = tf_transformer.fit_transform(X_train_counts)print X_train_tfidf.shapeclf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)docs_new = ['God is love', 'OpenGl on the Gpu is fast']X_new_counts = count_vect.transform(docs_new)X_new_tfidf = tfidf_transformer.fit_transform(X_new_counts)predicted = clf.predict(X_new_tfidf)for doc, category in zip(docs_new, predicted): print '%r=>%s' % (doc, twenty_train.target_names[category]对fetch_20newsgroups中的2257条文档进行分类
统计每个词出现的次数
用tf-idf统计词频,tf是在一个文档里每个单词出现的次数除以文档的单词总数,idf是总的文档数除以包含该单词的文档数,再取对数;tf * idf就是这里用到的值,值越大表明单词越重要,或越相关。
例子具体做法:
先计算了每个单词出现的次数
然后计算了tf-idf值
然后带入模型进行训练
最后预测了两个新文档的类型
结果:
'God is love'=> soc.religion.christian'OpenGL on the GPU is fast'=> comp.graphics
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注行业资讯频道,感谢您对的支持。
文档
单词
次数
帮助
统计
实例
实例分析
文本
分析
清楚
两个
例子
做法
内容
对数
对此
就是
总数
文章
新手
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库输入成绩用什么类型
华为网络技术岗位面试
应用软件开发属于什么专业
vlc服务器搭建
get网络安全知识
软件开发的几种方法
服务器可以打lol吗
2042门户未找到服务器
救世之树服务器
软件开发环境目标
sql数据库手动备份
分布式数据库与分布式对象存储
黑客课程网络安全知识
软件开发什么牌子笔记本稳定
单片机web服务器
《网络安全知识》征文
网络安全产品 ppt
软件开发规模风险的防范
服务器怎么把网页发布出去
电脑找不到服务器管理器
信息网络安全使用管理规定
网络安全的爬虫啥意思
google查看不到服务器
腾讯云服务器防火墙续费
网络安全信息专报
天象网络技术有限公司总部
阿里云邮箱服务器
千牛 代理服务器
软件开发公司计划书范文
白山杀档网络技术有限公司