CRAN的主服务器为Austria站点
Bioconductor是与基因组数据分析相关的包的软件包仓库
软件包package
软件库library
软件库指的是一个包含了若干软件包的目录。既可以拥有一个系统级别的软件库,也可以针对每个用户单独设立一个软件库。
可以用sep参数来设置分隔符号。如果是空格分隔,使用sep=” “,如果是制表符分隔,使用\t。
#data <- read.csv("datafile.csv", sep="\t")默认情况下,数据集中的字符串(string)会被视为因子(factor)处理。
可以设置stringsAsFactors=FALSE。如果有些列应该被处理为因子格式,可以再逐个转换:
#data <- read.csv("datafile.csv", stringsAsFactors = FALSE) #转换为因子 #data$Sex <- factor(data$Sex) #str(data)可以在加载的时候不做设置(字符串自动转换为因子),加载之后再对需要的列进行因子到字符的转换
read.csv()是对read.table()一个便捷的封装函数。?read.table
xlsx包中的函数read.xlsx()可以读取Excel文件,下面的代码将会读取Excel中的第一个工作表:
#只需要安装一次 #install.packages("xlsx") #library(xslx) #data <- read.xlsx("datafile.xlsx", 1)如果需要阅读老版本的Excel文件(.xls格式),gdata包提供了函数read.xls()
#只需要安装一次 #install.packages("gdata") #library(gdata) #读取第一张工作表 #data <- read.xls("datafile.xls")使用read.xlsx()加载工作表时,既可以用序数参数sheetIndex来指定,也可以用工作表名参数sheetName来指定:
#data <- read.xlsx("datafile.xls", sheetIndex=2) #data <- read.xlsx("datafile.xls", sheetName="Revenues")使用read.xls()加载工作表时,可以用序数参数sheet来指定:
#data <- read.xls("datafile.xls", sheet=2)安装xlsx和gdata包时,需要在电脑上安装其他软件。 对于xlsx包,需要安装Java,对于gdata包,需要安装Perl。 如果是在Windows上,需要安装ActiveState Perl,其社区版本可以免费获得(http://www.active state.com/active perl) 替代方案是打开Excel文件后另存为标准的文本格式,比如CSV。
foreign包中的函数read.spss()可以读取SPSS文件。若要读取SPSS文件中的第一张表:
#只需首次使用时安装 #install.packages("foreign") #library(foreign) #data <- read.spss("datafile.sav")foreign包中还有很多读取其他格式文件的函数。包括以下几种。
read.octave():Octave和MATLABread.systat():SYSTATread.xport():SAS XPORTread.dta():Stata输入ls(“package:foreign”)可以查看该包中的所有函数的列表。
本系列笔记所涉及的知识、数据等信息的版权归原书作者所有,请购买正版图书。O(∩_∩)O谢谢~ 参考资料:R数据可视化手册