HDFS的理论学习笔记

xiaoxiao2021-03-25 102

HDFS的优点

1：高容错性，HDFS默认有多个副本，及时服务器坏了一台之后，会补全坏掉服务器上面的副本，放到其他的没有坏掉的服务器上。

2：可以构建在廉洁的机器上

HDFS的缺点

1：不适合低延迟数据量访问

2：小文件的存取，占用NameNode大量内存（因为每一个块文件都要一个元数据来存储块的地址）

那么小文件如何存储呢？比如百度云上传的图片小文件，是怎么储存的?

3：不支持文件的修改，比如百度云，只能修改文件名不能修改文件内容。

为什么hdfs不支持修改呢？原因是hdfs存储是按分块的，修改了文件的大小后，块需要重新划分，块的地址有可能改变，如此hadoop的hdfs集群可能全部用来修改数据了，CPU扛不住，hadoop支持了在文件后面添加内容，但是生成环境我们一定不能允许修改文件。

yarn的作用，让更多的第三方工具如spark，strom来分析HDFS的数据。

学习大数据里面的东西，可能百度没有用，因为最新的文档全部是英文写的，写书的人也写不到那么快。

学习大数据的，可能一个公司里面就几个人搞大数据，很多新的技术都要自己去看英文文档，可见英文文档的阅读有多么重要？如果等着别人翻译成中文，那么还是新技术吗？

转载请注明原文地址: https://ju.6miu.com/read-22239.html

技术

最新回复(0)