dataframe如何两列相乘构造新特征
发表于:2025-11-08 作者:千家信息网编辑
千家信息网最后更新 2025年11月08日,本篇内容主要讲解"dataframe如何两列相乘构造新特征",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"dataframe如何两列相乘构造新特征"吧!假如
千家信息网最后更新 2025年11月08日dataframe如何两列相乘构造新特征
本篇内容主要讲解"dataframe如何两列相乘构造新特征",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"dataframe如何两列相乘构造新特征"吧!
假如我们要构建新特征b
目的是从a中筛选出数值在4~6之间的数据,如果符合就是True,否则就是False。
那么代码如下
import pandas as pdlists=pd.DataFrame({'a':[1,2,3,4,5,6,7,8,9]})lists['b']=(lists['a']<6).mul(lists['a']>4)补充:dataframe求两列的相乘,再将输出为新的一列
看代码吧~
df["new"]=df3["rate"]*df3["duration"]new为新的一列的列名
rate和duration为需要相乘的列
加,减,乘,除都适用!
补充:DataFrame衍生新特征操作
1.DataFrame中某一列的值衍生为新的特征
#将LBL1特征的值衍生为one-hot形式的新特征piao=df_train_log.LBL1.value_counts().index#先构造一个临时的dfdf_tmp=pd.DataFrame({'USRID':df_train_log.drop_duplicates('USRID').USRID.values})#将所有的新特征列都置为0for i in piao: df_tmp['PIAO_'+i]=0#进行分组便利,有这个特征就置为1,原数据每个USRID有多条记录,所以分组统计group=df_train_log.groupby(['USRID'])for k in group.groups.keys(): t = group.get_group(k) id=t.USRID.value_counts().index[0] tmp_list=t.LBL1.value_counts().index for j in tmp_list: df_tmp['PIAO_'+j].loc[df_tmp.USRID==id]=12.分组统计,选出同一USRID下该变量中出现次数最多的值项
group=df_train_log.groupby(['USRID'])lt=[]list_max_lbl1=[]list_max_lbl2=[]list_max_lbl3=[]for k in group.groups.keys(): t = group.get_group(k) #通过value_counts找出出现次数最多的项 argmx = np.argmax(t['EVT_LBL'].value_counts()) lbl1_max=np.argmax(t['LBL1'].value_counts()) lbl2_max=np.argmax(t['LBL2'].value_counts()) lbl3_max=np.argmax(t['LBL3'].value_counts()) list_max_lbl1.append(lbl1_max) list_max_lbl2.append(lbl2_max) list_max_lbl3.append(lbl3_max) #只留下出现次数最多的项 c = t[t['EVT_LBL']==argmx].drop_duplicates('EVT_LBL') #放入list中 lt.append(c)#构造一个新的dfdf_train_log_new = pd.concat(lt)#另外又构造了三个特征,LBL1-LBL3分别出现次数最多的项df_train_log_new['LBL1_MAX']=list_max_lbl1df_train_log_new['LBL2_MAX']=list_max_lbl2df_train_log_new['LBL3_MAX']=list_max_lbl33.衍生出某天是否发生的ont-hot新特征
#创造临时df,星期三,星期六,星期七,都默认置为0df_day=pd.DataFrame({'USRID':df_train_log.drop_duplicates('USRID').USRID.values})df_day['weekday_3']=0df_day['weekday_6']=0df_day['weekday_7']=0#分组统计,有就置为1,没有置为0group=df_train_log.groupby(['USRID'])for k in group.groups.keys(): t = group.get_group(k) id=t.USRID.value_counts().index[0] tmp_list=t.occ_dayofweek.value_counts().index for j in tmp_list: if j==3: df_day['weekday_3'].loc[df_tmp.USRID==id]=1 elif j==6: df_day['weekday_6'].loc[df_tmp.USRID==id]=1 elif j==7: df_day['weekday_7'].loc[df_tmp.USRID==id]=14.查看用户一共停留在APP上多少秒,共有几天看了APP
#首先将日期转化为时间戳,并赋予一个新特征tmp_list=[]for i in df_train_log.OCC_TIM: d=datetime.datetime.strptime(str(i),"%Y-%m-%d %H:%M:%S") evt_time = time.mktime(d.timetuple()) tmp_list.append(evt_time)df_train_log['time']=tmp_list#每下一行减去上一行,得到app停留时间df_train_log['diff_time']=df_train_log.time-df_train_log.time.shift(1)#构造一个新的dataFrame,分组得到查看app的天数df_time=pd.DataFrame({'USRID':df_train_log.drop_duplicates('USRID').USRID.values})#有几天查看df_time['days']=0group=df_train_log.groupby(['USRID'])for k in group.groups.keys(): t = group.get_group(k) id=set(t.USRID).pop() df_time['days'].loc[df_time.USRID==id]= len(t.occ_day.value_counts().index)#去掉一些异常时间戳,比如间隔两天的相减,肯定不合适,na的也去掉了df_train_log=df_train_log[(df_train_log.diff_time>0)&(df_train_log.diff_time<8000)]#累计停留时间group_stayTime=df_train_log['diff_time'].groupby(df_train_log['USRID']).sum()#创造新的dfdf_tmp=pd.DataFrame({'USRID':list(group_stayTime.index.values),'stay_time':list(group_stayTime.values)})#合并成一个新的dfdf=pd.merge(df_time,df_tmp,on=['USRID'],how='left')#合并后,缺失的停留时间,置为0df.fillna(0,axis=1,inplace=True)到此,相信大家对"dataframe如何两列相乘构造新特征"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
特征
分组
时间
次数
星期
统计
一行
代码
内容
就是
数据
选出
生为
学习
衍生
合适
实用
更深
三个
之间
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
5g网络技术的主要内容
广西有多少网络安全公司
武汉美的软件开发
高并发读数据库解决方案
天天红包软件开发
学校网络安全条幅
护苗网络安全稿件
网络安全基金值不值得买
杀毒软件如何添加服务器
be服务器怎么解决
自己架设传奇私服链接服务器失败
sql数据库找不到命令
笔记本网络服务器怎么开启
数据库表的复制
管理服务器流量监控
怀柔区正规软件开发比较
万农网合作社数据库
radius数据库
组态王与高版本数据库
校园网络安全的优点
浙江通用软件开发收购价格
应用软件开发人员简介
转区后可以预订其他服务器吗
土豆服务器buff加持
servlet数据库怎么分享
建数据库链接服务器
语音聊天服务器tcp
浪潮服务器续保费用
软件开发算不算研发服务
微信pc客户端 数据库