R语言计算IV值及使用
发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,更多大数据分析、建模等内容请关注公众号《bigdatamodeling》在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,R语言计算IV值的代码如下:CalcIV <-
千家信息网最后更新 2025年12月01日R语言计算IV值及使用
更多大数据分析、建模等内容请关注公众号《bigdatamodeling》
在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,R语言计算IV值的代码如下:
CalcIV <- function(df_bin, key_var, y_var){ N_0<-table(df_bin[, y_var])[1] N_1<-table(df_bin[, y_var])[2] iv_c<-NULL var_c<-NULL for (col in colnames(df_bin)){ if (col != key_var && col != y_var) { frq<-as.data.frame(table(df_bin[, col], df_bin[, y_var])) len<-length(unique(frq$Var1)) iv<-0 for (i in 1:len){ N_i_0<-frq$Freq[frq$Var1==i & frq$Var2==0] N_i_1<-frq$Freq[frq$Var1==i & frq$Var2==1] iv<-iv+(N_i_0/N_0- N_i_1/N_1)*log((N_i_0/N_0)/(N_i_1/N_1)) } iv_c<-c(iv_c, iv) var_c<-c(var_c, col) } } iv_df<-data.frame(var=var_c, iv=iv_c, stringsAsFactors = FALSE) return(iv_df)}其中,df_bin是分箱后的数据集,key_var是主键,y_var是y变量(0是好,1是坏)。代码运行结果如下:
变量
重要
代码
数据
重要性
语言
公众
内容
数据分析
更多
结果
区分度
分析
统计
评估
运行
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
有哪些网络安全小知识
长宁区软件开发
s12服务器
德玛西亚网络技术
租赁云服务器
网络安全攻防中的蓝军
广州廷宝互联网科技有限公司
40岁从零开始学习软件开发
天津特色软件开发价钱
软件开发属于那些专业
武大国家网络安全学院导师
数据库概念结构有哪些特点
数据库系统实验报告6
联通dns服务器地址
网络技术人员自我评价
浪潮服务器 内存
日常生活中数据库系统应用实例
计算机网络技术介绍房间
关系数据库标准语言sql复习题
数据库有ole技术吗
主机 服务器 游戏吗
山东汇搜网络技术有限公司
内网中转服务器
东华理工大学网络安全专业
濮阳订单管理软件开发
华擎b660主板支持服务器内存
软件开发测试与验收
在电脑 安卓软件开发
rust命令行连接服务器
网络安全短视频观后感