1.idea中创建的Java工程(Test),project下的目录结构为:
Test ->src(doc)->com->lavasoft->test
src和doc为根目录
File f=new File("src/com/lavasoft/test/a.txt")
File f2=new File("doc/b.txt")
2.CDH集群启动时,web页面所有组件前都是问号:将下方的ClouderaManagerService启动可以解决
如果组件前都是停止的标志,那么启动CMS上方的键
3.CDH中设置了时钟同步,节点3和节点4会与节点2同步。3,4提示不同步时,在3,4中执行service ntpd start,过一段时间后,3,4 就 同步了
4.CDH中日志目录为:/data1/var/log
5.Hbase-shell启动正常,但无法使用list命令?
解决:查看日志(可通过web页面也可以查看/data1/var/log/hbase),会提示某些日志文件异常,删除这些文件后就行了如:
“hdfs://yyptbd1:8020/hbase/WALs/yyptbd4,60020,1487922807180-splitting”
hadoop fs -mv yyptbd4,60020,1487922807180-splitting /
最后可以将该文件再移回WALs中
6.rdd.persist()或者rdd.cache()操作会让整个rdd缓存下来
7.Gradle只提供了构建项目的框架,真正起作用的是Plugin [plʌgɪn] 插件
1.apply plugin:'java' aplly plugin:'scala' //应用插件
2.sourceCompatibility=1.5 //指定编译的java文件的JDK版本
3.repositories{ mavenCentral()} //添加Gradle项目的Maven依赖
4.dependeccies{compile 'aa:bb:cc'} //将从Maven库中下载该aa:bb:cc包
8.学习Spark官方文档
9.学习Spark源码
10.Java中的编译,链接,运行指什么?
编译:使用javac进行编译 生成.class文件,字节码文件。
运行:Java+入口类
11.学习Hbase ,多练习
12.学习Spark ,多练习
13.学习Hive,多练习