HDFS的优点
1:高容错性,HDFS默认有多个副本,及时服务器坏了一台之后,会补全坏掉服务器上面的副本,放到其他的没有坏掉的服务器上。
2:可以构建在廉洁的机器上
HDFS的缺点
1:不适合低延迟数据量访问
2:小文件的存取,占用NameNode大量内存(因为每一个块文件都要一个元数据来存储块的地址)
那么小文件如何存储呢?比如百度云上传的图片小文件,是怎么储存的?
3:不支持文件的修改,比如百度云,只能修改文件名不能修改文件内容。
为什么hdfs不支持修改呢?原因是hdfs存储是按分块的,修改了文件的大小后,块需要重新划分,块的地址有可能改变,如此hadoop的hdfs集群可能全部用来修改数据了,CPU扛不住,hadoop支持了在文件后面添加内容,但是生成环境我们一定不能允许修改文件。
yarn的作用,让更多的第三方工具如spark,strom来分析HDFS的数据。
学习大数据里面的东西,可能百度没有用,因为最新的文档全部是英文写的,写书的人也写不到那么快。
学习大数据的,可能一个公司里面就几个人搞大数据,很多新的技术都要自己去看英文文档,可见英文文档的阅读有多么重要?如果等着别人翻译成中文,那么还是新技术吗?
转载请注明原文地址: https://ju.6miu.com/read-22239.html