(文/@数据化分析)
有一年多没有更新博文了,主要是因为各种繁忙。
尽管有很多看似合理的理由,但内心的声音还是希望能够坚持。
之前看了几本关于大数据的书,本来想分享一下自己读后的心得体会,但是说实话,个人感觉书中大都是一些概念性的东西,并没有从中获得多少很有价值的营养,一般在实际工作中好像跟以前没有什么大的区别,而且我对《大数据时代》中所谓的“知道是什么就够了”的论调不大赞同,真的“没必要知道为什么”吗?我认为,就算数据再大,知道因果关系还是非常重要的!
在大数据时代,我相信社会将会更快地发生一些变革,而经过分析的数据将变得更有价值,其中分析数据的人特别关键。针对同样的数据,不同的人可能会运用不同的方法、不同的工具,对数据的理解可能千差万别,分析出来的结果就可能大相径庭。
在对业务充分理解的基础上,我比较注重分析工具的使用,最近计划系统地学习一下R语言。
目前用的R软件版本是3.2.0,下载地址:
http://cran.rstudio.com/bin/windows/base/
另外,为了提高效率,推荐再安装Rstudio软件,下载地址:
http://www.rstudio.com/products/rstudio/download/
下面推荐了16本学习书籍,有点多!没关系,慢慢来!从入门开始,根据工作需要再学习相应的进阶技术。
相关学习书籍(摘自网络上的“R书精选之十二宫”,我略做了更新):
一、初学入门: 《R in Action》 《The Art of R Programming》 入门者可首选两本,前者从统计角度入手,分高中低三部分由浅入深的讲解了如何用R来实现统计分析,另外此书已经有中文版面世。后者从程序编写的角度入手,对R的本身特点进行了清晰的介绍,也有中文版。 《learning R》
这本书没有单纯的讲语法,而是和数据分析的流程结合了起来,从数据获取到数据整理再到分析和报告,有一气呵成的感觉,此外最后两章讲如何写稳健的R代码以及写包都是非常精彩的。 二、统计进阶: 《A Handbook of Statistical Analyses Using R》 《Modern Applied Statistics With S》 这两本书基本上涵盖了统计的一些高阶内容,例如多元分析、多层回归模型、荟萃分析、生存分析等内容。案例丰富,公式不多,值得反复学习参考。 三、科学计算: 《Introduction to Scientific Programming and Simulation Using R》 除了统计分析外,此书独特之处在于使用R来做数值分析,如求根,最优化,数值积分。还包括了一些常见的模拟技术。书后的习题和最后的案例非常有用。 四、数据挖掘: 《Data Mining with R Learning with Case Studies》 《Machine Learning for Hackers》 两本侧重于数据挖掘的R书,全是以案例为线索,示范的代码量很大。跟一遍下来会有很大的收获。 《An Introduction to Statistical Learning》这本书可以说是另一本数据挖掘大作《The Elements of Statistical Learning》的R实现手册,体系结构基本一致,更强调用R来实现,更难得的地方是提供了很好的习题。 五、数据绘图: 《ggplot2 Elegant Graphics for Data Analysis》 ggplot2还有什么好说的呢,R中最优秀的绘图包,但由于近期该包升级很快,这书显得有些过时。好在中文版进行了大幅更新。 《R Graphics Cookbook》这本书也是RStudio公司的人出的,似乎是Hadley的学生吧,主要是各种ggplot2包的例子,也包括了用其它包来画图,建议通读一遍。 六、参考手册: 《R Cookbook》 《R in a Nutshell》 有时候我们需要类似词典的案头参考手册,以方便随时查阅。又或者可以通读一遍以查漏补缺。上面两本书虽然有些厚度,但仍然推荐之。
七、高级编程: 《R Programming for Bioinformatics》 《software for data analysis programming with R》 如果你是初学者,不要去看上面两本书。如果你想进阶为专家级R用户,那你需要精读它们。前者讲解了R少为人知的一面,例如字符处理、正则表达和XML,还有报错处理以及与其它语言的交互。后者更是编写生产级代码的圣经指南。 《Advanced R programming》Hadley的力作,清楚的讲解了R的函数式编程思想和写R包的各种细节,要迈入R高手,不得不读。
我将通过数据化分析的微信公众号(isjhfx)分享一些R的应用案例、读书笔记、学习资源等内容,欢迎关注!
微信名称:数据化分析 微信号:isjhfx