spark mllib如何实现基于卡方校验的特征选择
发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,这篇文章给大家分享的是有关spark mllib如何实现基于卡方校验的特征选择的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。运行代码如下package spark.Feat
千家信息网最后更新 2025年12月02日spark mllib如何实现基于卡方校验的特征选择
这篇文章给大家分享的是有关spark mllib如何实现基于卡方校验的特征选择的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
运行代码如下
package spark.FeatureExtractionAndTransformationimport org.apache.spark.mllib.feature.ChiSqSelectorimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.util.MLUtilsimport org.apache.spark.{SparkConf, SparkContext}/** * 基于卡方校验的特征选择 * 卡方校验: * 在分类资料统计推断中一般用于检验一个样本是否符合预期的一个分布. * 是统计样本的实际值与理论推断值之间的偏离程度. * 卡方值越小,越趋于符合 * * Created by eric on 16-7-24. */object FeatureSelection { val conf = new SparkConf() //创建环境变量 .setMaster("local") //设置本地化处理 .setAppName("TF_IDF") //设定名称 val sc = new SparkContext(conf) def main(args: Array[String]) { val data = MLUtils.loadLibSVMFile(sc, "/home/eric/IdeaProjects/wordCount/src/main/spark/FeatureExtractionAndTransformation/fs.txt") val discretizedData = data.map { lp => //创建数据处理空间 LabeledPoint(lp.label, Vectors.dense(lp.features.toArray.map {x => x/2})) } val selector = new ChiSqSelector(2)//创建选择2个特性的卡方校验 val transformer = selector.fit(discretizedData)//创建训练模型 val filteredData = discretizedData.map { lp => //过滤前两个特性 LabeledPoint(lp.label, transformer.transform(lp.features)) } filteredData.foreach(println)// (0.0,[1.0,0.5])// (1.0,[0.0,0.0])// (0.0,[1.5,1.5])// (1.0,[0.5,0.0])// (1.0,[2.0,1.0]) }}fs.txt
0 1:2 2:1 3:0 4:11 1:0 2:0 3:1 4:00 1:3 2:3 3:2 4:21 1:1 2:0 3:4 4:31 1:4 2:2 3:3 4:1
结果如下
感谢各位的阅读!关于"spark mllib如何实现基于卡方校验的特征选择"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
选择
特征
内容
更多
样本
特性
篇文章
处理
推断
统计
不错
实用
两个
之间
代码
变量
名称
实际
数据
数据处理
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
农合数据库操作出错
电话录音系统服务器锁定怎么办
深入计算网络技术与应用电子书
国产化数据库对标
浙江云主机服务器租用
人质伴奏软件开发
软件开发与云计算哪个好
临床医生选择数据库的标准是啥
河北工业软件开发如何收费
眉山网络技术推荐厂家
envi高光谱软件开发
江苏正规软件开发哪家专业
阿里云服务器1元
工程数据库技术 吴卓葵
超时时间已到服务器无响应
网络技术专业专升本考什么
洛阳ppp项目数据库
网络安全常识十条大学生
网络安全自查和抽查报告
安徽连连花网络技术
农合数据库操作出错
互联网高科技ae片头模板
网络安全等板块跌幅较深
方舟联机用小型服务器可以吗
电脑网络安全模式不卡
新建dns服务器
软件开发的目标是什么
阿里云服务器1元
日本找软件开发工作网站
数钥网络技术有限公司