R语言-数据预处理

    xiaoxiao2021-03-25  165

    数据预处理的常见做法

    写完论文,闲来无事,想写写博客! 这是我写的第一篇文章,请多多支持!谢谢!

    data<-read.csv("data.csv")#读入数据 dim(data)#看数据中有多少行,多少列 str(data)#看数据中变量类型 summary(iris)#数值型的变量给出最大,最小,中位数,均值,上下四分位数;分类型的给出变量类型以及个数 **通过上面三个函数基本可以了解数据集中变量的个数以及类型** data$label<-factor(data$label)#把label变量转变为因子型 which(complete.cases(data) == F)#看哪行有缺失值 data_new<-data[!is.na(data$age),]#去掉age变量中的缺失值 data_new<-data_new[order(salary,decreasing=F),]#salary变量升序排列

    把数据中的所有因子型变量转换成哑变量

    筛选出数据中的所有因子型变量把这些因子型变量粘贴到formula的右边转换为哑变量 代码如下: facots<-names(data)[sapply(data, class) == 'factor'] formula<-as.formula(paste('~',paste(facots,collapse = '+'))) dummy<-dummyVars(formula = formula, data = data) pred<-predict(dummy, newdata = data) head(pred)
    转载请注明原文地址: https://ju.6miu.com/read-5797.html

    最新回复(0)