spark mllib如何实现TF-IDF
发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,这篇文章给大家分享的是有关spark mllib如何实现TF-IDF的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。运行代码如下package spark.FeatureEx
千家信息网最后更新 2025年12月03日spark mllib如何实现TF-IDF
这篇文章给大家分享的是有关spark mllib如何实现TF-IDF的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
运行代码如下
package spark.FeatureExtractionAndTransformationimport org.apache.spark.mllib.feature.{HashingTF, IDF}import org.apache.spark.{SparkContext, SparkConf}/** * TF-IDF 是一种简单的文本特征提取算法 * 词频(Term Frequency): 某个关键词在文本中出现的次数 * 逆文档频率(Inverse Document Frequency): 大小与一个词的常见程度成反比 * TF = 某个词在文章中出现的次数/文章的总词数 * IDF = log(查找的文章总数 / (包含该词的文章数 + 1)) * TF-IDF = TF(词频) x IDF(逆文档频率) * 此处未考虑去除停用词(辅助词,如副词,介词等)和 * 语义重构("数据挖掘","数据结构",拆分成"数据","挖掘","数据","结构") * 这样两个完全不同的文本具有 50% 的相似性,是非常严重的错误. * Created by eric on 16-7-24. */object TF_IDF { val conf = new SparkConf() //创建环境变量 .setMaster("local") //设置本地化处理 .setAppName("TF_IDF") //设定名称 val sc = new SparkContext(conf) def main(args: Array[String]) { val documents = sc.textFile("/home/eric/IdeaProjects/wordCount/src/main/spark/FeatureExtractionAndTransformation/a.txt") .map(_.split(" ").toSeq) val hashingTF = new HashingTF() //首先创建TF计算实例 val tf = hashingTF.transform(documents).cache()//计算文档TF值 val idf = new IDF().fit(tf) //创建IDF实例并计算 val tf_idf = idf.transform(tf) //计算TF_IDF词频 tf_idf.foreach(println)// (1048576,[179334,596178],[1.0986122886681098,0.6931471805599453])// (1048576,[586461],[0.1823215567939546])// (1048576,[422129,586461],[0.6931471805599453,0.1823215567939546])// (1048576,[586461,596178],[0.1823215567939546,0.6931471805599453])// (1048576,[422129,586461],[0.6931471805599453,0.1823215567939546]) }}a.txt
hello mllibsparkgoodBye sparkhello sparkgoodBye spark
结果如下

感谢各位的阅读!关于"spark mllib如何实现TF-IDF"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
文章
数据
文本
文档
词频
内容
实例
更多
次数
篇文章
结构
频率
不同
不错
实用
相似
两个
介词
代码
关键
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
ipv6 家用公网服务器
在什么中臻于网络安全生态
网民注意网络安全数量
政府信息系统网络安全
网络安全类公司财务报表
什么是网络安全文明施工
数据库规范度越高越好
棋牌游戏网络安全
vivox50的网络安全密钥
潍坊华云网络技术有限公司
战咯支援部队网络安全基地
信息系统网络安全方案2021
mac 创建数据库
电梯服务器运行编码
车服科技是互联网吗
奇云宝可梦服务器下载不是安卓版
标准网络安全工程介绍
ios软件开发培训费用
网络安全演讲150字
喷泉模型举例软件开发
app运行基础服务器与云服务器
数据库网站开发框架
警务通数据库
网络安全普法模板
网络技术总监薪水多少
数据库 存储数组
关于网络安全的主题名字
vba自动报表数据库
办公买二手服务器如何
用户是如何访问服务器上的数据的