Hbase-知识点总结

xiaoxiao2021-12-14 42

Linux命令汇总：：/XXX ---- 定位寻找XXX Hbase数据库（hadoop database）参考网址： HBase以表的形式存储数据。表有行和列组成。行由行键(Row Key)来标识，列划分为若干个列族(row family). Hbase表结构 HBase中的表一般有这样的特点： 1 大：一个表可以有上亿行，上百万列 2 面向列:面向列(族)的存储和权限控制，列(族)独立检索。 3 稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。 Hbase是基于HDFS和Zookeeper的： Hbase是bigtable的开源山寨版本。是建立的HDFS之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。 Hbase是基于hadoop(hdfs)的分布式数据库系统，Hbase也有主（HMaster）、从节点（HRegionServer），主从节点之间的状态协调是通过Zookeeper实现的，而且在查询数据时也是通过Zookeeper先找到数据的寻址的起始点，才能找到数据在哪 Hbase理论基础：http://blog.csdn.net/zh521zh/article/details/51918664 http://blog.csdn.net/wulantian/article/details/41011297 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~！！！！！！！！！！！！物理存储 1 Table中的所有行都按照row key的字典序排列。　　 2 Table 在行的方向上分割为多个 Hregion。（一个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，Hregion就会等分成两个新的Hregion。） 3 region按大小分割的，每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候， Hregion就会等分成两个新的Hregion。当table中的行不断增多，就会有越来越多的Hregion。 4 HRegion是Hbase中【分布式存储】和【负载均衡】的最小单元。最小单元就表示不同的Hregion可以分布在不同的HRegion server上。但一个HRegion是不会拆分到多个server上的。 5 HRegion虽然是【分布式存储的】最小单元，但并不是存储的最小单元。事实上，HRegion由一个或者多个Store组成，每个store保存一个columns family。每个Strore又由一个memStore和0至多个StoreFile组成。如图：StoreFile以HFile格式保存在HDFS上。 Hbase为什么访问数据比较快？因为在建表时可以控制把热数据加载到内存里缓存起来，这样就比直接去hdfs里面读取快~~~ （create 't1', {NAME => 'f1', VERSIONS => 1, TTL => 2592000, BLOCKCACHE => true}） hbase集群搭建先部署一个zookeeper集群(hbase自身是带有zookeeper集群的，但是没必要用它，而是配置让hbase用外部我们自己的zookeeper集群) （1）上传hbase安装包（2）解压（3）配置hbase集群，要修改3个文件注意：要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下（3.1）修改hbase-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_79 //告诉hbase使用外部的zk export HBASE_MANAGES_ZK=false （3.2）修改 hbase-site.xml <configuration>  <property> <name>hbase.rootdir</name> <value>hdfs://ns1/hbase</value> </property>  <property> <name>hbase.cluster.distributed</name> <value>true</value> </property>  <property> <name>hbase.zookeeper.quorum</name> <value>hadoop-01-server:2181,hadoop-02-server:2181,hadoop-03-server:2181</value> </property> </configuration> （3.3）修改 regionservers hadoop-01-server hadoop-02-server hadoop-03-server (3.4) 拷贝hbase到其他节点 scp -r /home/hadoop/hbase-0.96.2-hadoop2/ hadoop-02-server:/home/hadoop scp -r /home/hadoop/hbase-0.96.2-hadoop2/ hadoop-03-server:/home/hadoop (4) 将配置好的HBase拷贝到每一个节点并同步时间。 (5) 启动所有的hbase进程首先启动zk集群 ./zkServer.sh start 启动hbase集群 start-dfs.sh 启动hbase，在主节点上运行： start-hbase.sh (6) 通过浏览器访问hbase管理页面 hadoop-01-server:60010 (7) 为保证集群的可靠性，要启动多个HMaster,实现高可用 hbase-daemon.sh start master Hbase的使用：执行./hbase shell ，进入hbase命令行 list 显示hbase中的表创建user表，包含info、data两个列族 create 'user', 'info1', 'data1' create 'user', {NAME => 'info', VERSIONS => '3'} 向user表中插入信息，row key为rk0001，列族info中添加name列标示符，值为zhangsan put 'user', 'rk0001', 'info:name', 'zhangsan' 向user表中插入信息，row key为rk0001，列族info中添加gender列标示符，值为female put 'user', 'rk0001', 'info:gender', 'female' 向user表中插入信息，row key为rk0001，列族info中添加age列标示符，值为20 put 'user', 'rk0001', 'info:age', 20 向user表中插入信息，row key为rk0001，列族data中添加pic列标示符，值为picture put 'user', 'rk0001', 'data:pic', 'picture' 获取user表中row key为rk0001的所有信息 get 'user', 'rk0001' 获取user表中row key为rk0001，info列族的所有信息 get 'user', 'rk0001', 'info' 获取user表中row key为rk0001，info列族的name、age列标示符的信息 get 'user', 'rk0001', 'info:name', 'info:age' 获取user表中row key为rk0001，info、data列族的信息 get 'user', 'rk0001', 'info', 'data' get 'user', 'rk0001', {COLUMN => ['info', 'data']} get 'user', 'rk0001', {COLUMN => ['info:name', 'data:pic']} 获取user表中row key为rk0001，列族为info，版本号最新5个的信息 get 'user', 'rk0001', {COLUMN => 'info', VERSIONS => 2} get 'user', 'rk0001', {COLUMN => 'info:name', VERSIONS => 5} get 'user', 'rk0001', {COLUMN => 'info:name', VERSIONS => 5, TIMERANGE => [1392368783980, 1392380169184]} 获取user表中row key为rk0001，cell的值为zhangsan的信息 get 'people', 'rk0001', {FILTER => "ValueFilter(=, 'binary:图片')"} 获取user表中row key为rk0001，列标示符中含有a的信息 get 'people', 'rk0001', {FILTER => "(QualifierFilter(=,'substring:a'))"} put 'user', 'rk0002', 'info:name', 'fanbingbing' put 'user', 'rk0002', 'info:gender', 'female' put 'user', 'rk0002', 'info:nationality', '中国' get 'user', 'rk0002', {FILTER => "ValueFilter(=, 'binary:中国')"} 查询user表中的所有信息 scan 'user' 查询user表中列族为info的信息 scan 'user', {COLUMNS => 'info'} scan 'user', {COLUMNS => 'info', RAW => true, VERSIONS => 5} scan 'persion', {COLUMNS => 'info', RAW => true, VERSIONS => 3} 查询user表中列族为info和data的信息 scan 'user', {COLUMNS => ['info', 'data']} scan 'user', {COLUMNS => ['info:name', 'data:pic']} 查询user表中列族为info、列标示符为name的信息 scan 'user', {COLUMNS => 'info:name'} 查询user表中列族为info、列标示符为name的信息,并且版本最新的5个 scan 'user', {COLUMNS => 'info:name', VERSIONS => 5} 查询user表中列族为info和data且列标示符中含有a字符的信息 scan 'user', {COLUMNS => ['info', 'data'], FILTER => "(QualifierFilter(=,'substring:a'))"} 查询user表中列族为info，rk范围是[rk0001, rk0003)的数据 scan 'people', {COLUMNS => 'info', STARTROW => 'rk0001', ENDROW => 'rk0003'} 查询user表中row key以rk字符开头的 scan 'user',{FILTER=>"PrefixFilter('rk')"} 查询user表中指定范围的数据 scan 'user', {TIMERANGE => [1392368783980, 1392380169184]} 删除数据删除user表row key为rk0001，列标示符为info:name的数据 delete 'people', 'rk0001', 'info:name' 删除user表row key为rk0001，列标示符为info:name，timestamp为1392383705316的数据 delete 'user', 'rk0001', 'info:name', 1392383705316 清空user表中的数据 truncate 'people' 修改表结构首先停用user表（新版本不用） disable 'user' 添加两个列族f1和f2 alter 'people', NAME => 'f1' alter 'user', NAME => 'f2' 启用表 enable 'user' ###disable 'user'(新版本不用) 删除一个列族： alter 'user', NAME => 'f1', METHOD => 'delete' 或 alter 'user', 'delete' => 'f1' 添加列族f1同时删除列族f2 alter 'user', {NAME => 'f1'}, {NAME => 'f2', METHOD => 'delete'} 将user表的f1列族版本号改为5 alter 'people', NAME => 'info', VERSIONS => 5 启用表 enable 'user' 删除表 disable 'user' drop 'user' get 'person', 'rk0001', {FILTER => "ValueFilter(=, 'binary:中国')"} get 'person', 'rk0001', {FILTER => "(QualifierFilter(=,'substring:a'))"} scan 'person', {COLUMNS => 'info:name'} scan 'person', {COLUMNS => ['info', 'data'], FILTER => "(QualifierFilter(=,'substring:a'))"} scan 'person', {COLUMNS => 'info', STARTROW => 'rk0001', ENDROW => 'rk0003'} scan 'person', {COLUMNS => 'info', STARTROW => '20140201', ENDROW => '20140301'} scan 'person', {COLUMNS => 'info:name', TIMERANGE => [1395978233636, 1395987769587]} delete 'person', 'rk0001', 'info:name' alter 'person', NAME => 'ffff' alter 'person', NAME => 'info', VERSIONS => 10 get 'user', 'rk0002', {COLUMN => ['info:name', 'data:pic']}

转载请注明原文地址: https://ju.6miu.com/read-963113.html

专利

最新回复(0)