HDFS的理论学习笔记

    xiaoxiao2021-03-25  102

    HDFS的优点

    1:高容错性,HDFS默认有多个副本,及时服务器坏了一台之后,会补全坏掉服务器上面的副本,放到其他的没有坏掉的服务器上。

    2:可以构建在廉洁的机器上

    HDFS的缺点

    1:不适合低延迟数据量访问

    2:小文件的存取,占用NameNode大量内存(因为每一个块文件都要一个元数据来存储块的地址)

    那么小文件如何存储呢?比如百度云上传的图片小文件,是怎么储存的?

    3:不支持文件的修改,比如百度云,只能修改文件名不能修改文件内容。

    为什么hdfs不支持修改呢?原因是hdfs存储是按分块的,修改了文件的大小后,块需要重新划分,块的地址有可能改变,如此hadoop的hdfs集群可能全部用来修改数据了,CPU扛不住,hadoop支持了在文件后面添加内容,但是生成环境我们一定不能允许修改文件。

    yarn的作用,让更多的第三方工具如spark,strom来分析HDFS的数据。

    学习大数据里面的东西,可能百度没有用,因为最新的文档全部是英文写的,写书的人也写不到那么快。

    学习大数据的,可能一个公司里面就几个人搞大数据,很多新的技术都要自己去看英文文档,可见英文文档的阅读有多么重要?如果等着别人翻译成中文,那么还是新技术吗?

    转载请注明原文地址: https://ju.6miu.com/read-22239.html

    最新回复(0)