04.4#dplyr包基础函数(一)高效数据清理

    xiaoxiao2026-05-15  12

    一个用于数据处理的包;语法简单,速度快 (c++) dplyr 基础函数 MySQL :RMySQL SQL Server:RODBC SQlite :RSQLite tbl是dplyr定义的数据类型 可以接受 data.frame cube  sql order = read.table(file = "D:/R/dplyr-data/order.csv",                         header = T,                         sep = ",") order = tb1_df(order)  #转换成tbl格式  class(order) 第一个变量为数据框或者tbl对象 之后变量为筛选(运算)的条件 输出还是数据框 1、filter(数据筛选) filter(file,条件) 返回满足条件的观测值 filter(tbl,tbl$color == 'blue') filter(tbl,value %in% c(1,4)) filter(order,order$city == c("NEWTON","MIAMI")) filter(order,order$city == c("NEWTON","MIAMI")               & order$totalprice > 1000) 2、select(数据子集选取) select(tbl,color) 选取color select(tbl,-color) names(order) select(order,orderid,totalprice) select(order,date = orderdate,price = totalprice)               #选取两个变量的数据并重命名 select(order,starts_with('order'))  #选取以order开头的变量数据 select(order,contains("id"))   #选择包含id的数据 filter通过准则来选择观测值 select通过准则来选择变量 select函数的重名字和rename区别: rename会保留所有变量 select只会保留选择的变量 3、arrange(数据排序) arrange(file,排序项) arrange(df1,desc(color))     从大到小 arrang(iris,date,desc(price))  #时间从小到大  价格从大到小 4、mutate(数据扩展)在原有的基础上增加变量 mutate(tbl,double = 2*value,quadruple = 4*value) transmute (数据扩展)增加变量  会删除原有变量 transmute(tbl,double = 2*value,quadruple = 4*value) 5、summarise(数据汇总)将多个数据值汇总成一个数据值 summatise(tbl,total = sum(value))   #对value值求和 并命名为total summatise(tbl,total = sum(value),                     avg = mean(value))
    转载请注明原文地址: https://ju.6miu.com/read-1309710.html
    最新回复(0)