一个用于数据处理的包;语法简单,速度快 (c++)
dplyr
基础函数
MySQL :RMySQL
SQL Server:RODBC
SQlite :RSQLite
tbl是dplyr定义的数据类型
可以接受 data.frame cube sql
order = read.table(file = "D:/R/dplyr-data/order.csv",
header = T,
sep = ",")
order = tb1_df(order) #转换成tbl格式
class(order)
第一个变量为数据框或者tbl对象
之后变量为筛选(运算)的条件
输出还是数据框
1、filter(数据筛选) filter(file,条件)
返回满足条件的观测值
filter(tbl,tbl$color == 'blue')
filter(tbl,value %in% c(1,4))
filter(order,order$city == c("NEWTON","MIAMI"))
filter(order,order$city == c("NEWTON","MIAMI")
& order$totalprice > 1000)
2、select(数据子集选取)
select(tbl,color) 选取color
select(tbl,-color)
names(order)
select(order,orderid,totalprice)
select(order,date = orderdate,price = totalprice)
#选取两个变量的数据并重命名
select(order,starts_with('order')) #选取以order开头的变量数据
select(order,contains("id")) #选择包含id的数据
filter通过准则来选择观测值
select通过准则来选择变量
select函数的重名字和rename区别:
rename会保留所有变量
select只会保留选择的变量
3、arrange(数据排序)
arrange(file,排序项)
arrange(df1,desc(color)) 从大到小
arrang(iris,date,desc(price)) #时间从小到大 价格从大到小
4、mutate(数据扩展)在原有的基础上增加变量
mutate(tbl,double = 2*value,quadruple = 4*value)
transmute
(数据扩展)增加变量
会删除原有变量
transmute(tbl,double = 2*value,quadruple = 4*value)
5、summarise(数据汇总)将多个数据值汇总成一个数据值
summatise(tbl,total = sum(value)) #对value值求和 并命名为total
summatise(tbl,total = sum(value),
avg = mean(value))
转载请注明原文地址: https://ju.6miu.com/read-1309710.html