数据预处理的常见做法
写完论文,闲来无事,想写写博客! 这是我写的第一篇文章,请多多支持!谢谢!
data<-
read.csv(
"data.csv")
dim(data)
str(data)
summary(iris)
**通过上面三个函数基本可以了解数据集中变量的个数以及类型
**
data
$label<-factor(data
$label)
which(complete.cases(data) == F)
data_new<-data[!is.na(data
$age),]
data_new<-data_new[order(salary,decreasing=F),]
把数据中的所有因子型变量转换成哑变量
筛选出数据中的所有因子型变量把这些因子型变量粘贴到formula的右边转换为哑变量 代码如下:
facots<-names(
data)[sapply(data, class) == 'factor']
formula<-
as.formula(paste('~',paste(facots,collapse = '+')))
dummy<-dummyVars(formula = formula,
data = data)
pred<-predict(dummy, newdata =
data)
head(pred)
转载请注明原文地址: https://ju.6miu.com/read-5797.html