Hbase-知识点总结

    xiaoxiao2021-12-14  42

    Linux命令汇总: :/XXX   ---- 定位寻找XXX   Hbase数据库(hadoop database)参考网址: HBase以表的形式存储数据。表有行和列组成。行由行键(Row Key)来标识,列划分为若干个列族(row family). Hbase表结构 HBase中的表一般有这样的特点: 1 大:一个表可以有上亿行,上百万列 2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。 3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。 Hbase是基于HDFS和Zookeeper的: Hbase是bigtable的开源山寨版本。是建立的HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。 Hbase是基于hadoop(hdfs)的分布式数据库系统,Hbase也有主(HMaster)、从节点(HRegionServer), 主从节点之间的状态协调是通过Zookeeper实现的,而且在查询数据时也是通过Zookeeper先找到数据的寻址的起始点,才能找到数据在哪 Hbase理论基础:http://blog.csdn.net/zh521zh/article/details/51918664    http://blog.csdn.net/wulantian/article/details/41011297   ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~!!!!!!!!!!!! 物理存储 1 Table中的所有行都按照row key的字典序排列。    2 Table 在  行的方向上   分割为多个 Hregion。 (一个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,Hregion就会 等分成两个新的Hregion。) 3 region按大小分割的,每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候, Hregion就会等分成两个新的Hregion。当table中的行不断增多,就会有越来越多的Hregion。 4 HRegion是Hbase中  【分布式存储】和【负载均衡】的    最小单元。最小单元就表示不同的Hregion可以分布在不同的HRegion server上。           但一个HRegion是不会拆分到多个server上的。         5 HRegion虽然是【分布式存储的】最小单元,但并不是存储的最小单元。事实上,HRegion由一个或者多个Store组成,           每个store保存一个columns family。每个Strore又由一个memStore和0至多个StoreFile组成。如图:StoreFile以HFile格式保存在HDFS上。 Hbase为什么访问数据比较快? 因为在建表时可以控制把热数据加载到内存里缓存起来,这样就比直接去hdfs里面读取快~~~ (create 't1', {NAME => 'f1', VERSIONS => 1, TTL => 2592000, BLOCKCACHE => true}) hbase集群搭建 先部署一个zookeeper集群(hbase自身是带有zookeeper集群的,但是没必要用它,而是配置让hbase用外部我们自己的zookeeper集群) (1)上传hbase安装包 (2)解压 (3)配置hbase集群,要修改3个文件 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 (3.1)修改hbase-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_79 //告诉hbase使用外部的zk export HBASE_MANAGES_ZK=false (3.2)修改 hbase-site.xml <configuration> <!-- 指定hbase在HDFS上存储的路径 -->        <property>                <name>hbase.rootdir</name>                <value>hdfs://ns1/hbase</value>        </property> <!-- 指定hbase是分布式的 -->        <property>                <name>hbase.cluster.distributed</name>                <value>true</value>        </property> <!-- 指定zk的地址,多个用“,”分割 -->        <property>                <name>hbase.zookeeper.quorum</name>                <value>hadoop-01-server:2181,hadoop-02-server:2181,hadoop-03-server:2181</value>        </property> </configuration> (3.3)修改 regionservers hadoop-01-server hadoop-02-server hadoop-03-server (3.4) 拷贝hbase到其他节点 scp -r /home/hadoop/hbase-0.96.2-hadoop2/ hadoop-02-server:/home/hadoop scp -r /home/hadoop/hbase-0.96.2-hadoop2/ hadoop-03-server:/home/hadoop (4) 将配置好的HBase拷贝到每一个节点并同步时间。 (5) 启动所有的hbase进程 首先启动zk集群 ./zkServer.sh start 启动hbase集群 start-dfs.sh 启动hbase,在主节点上运行: start-hbase.sh (6) 通过浏览器访问hbase管理页面 hadoop-01-server:60010 (7) 为保证集群的可靠性,要启动多个HMaster,实现高可用 hbase-daemon.sh start master Hbase的使用: 执行./hbase shell ,进入hbase命令行 list 显示hbase中的表 创建user表,包含info、data两个列族 create 'user', 'info1', 'data1' create 'user', {NAME => 'info', VERSIONS => '3'} 向user表中插入信息,row key为rk0001,列族info中添加name列标示符,值为zhangsan put 'user', 'rk0001', 'info:name', 'zhangsan' 向user表中插入信息,row key为rk0001,列族info中添加gender列标示符,值为female put 'user', 'rk0001', 'info:gender', 'female' 向user表中插入信息,row key为rk0001,列族info中添加age列标示符,值为20 put 'user', 'rk0001', 'info:age', 20 向user表中插入信息,row key为rk0001,列族data中添加pic列标示符,值为picture put 'user', 'rk0001', 'data:pic', 'picture' 获取user表中row key为rk0001的所有信息 get 'user', 'rk0001' 获取user表中row key为rk0001,info列族的所有信息 get 'user', 'rk0001', 'info' 获取user表中row key为rk0001,info列族的name、age列标示符的信息 get 'user', 'rk0001', 'info:name', 'info:age' 获取user表中row key为rk0001,info、data列族的信息 get 'user', 'rk0001', 'info', 'data' get 'user', 'rk0001', {COLUMN => ['info', 'data']} get 'user', 'rk0001', {COLUMN => ['info:name', 'data:pic']} 获取user表中row key为rk0001,列族为info,版本号最新5个的信息 get 'user', 'rk0001', {COLUMN => 'info', VERSIONS => 2} get 'user', 'rk0001', {COLUMN => 'info:name', VERSIONS => 5} get 'user', 'rk0001', {COLUMN => 'info:name', VERSIONS => 5, TIMERANGE => [1392368783980, 1392380169184]} 获取user表中row key为rk0001,cell的值为zhangsan的信息 get 'people', 'rk0001', {FILTER => "ValueFilter(=, 'binary:图片')"} 获取user表中row key为rk0001,列标示符中含有a的信息 get 'people', 'rk0001', {FILTER => "(QualifierFilter(=,'substring:a'))"} put 'user', 'rk0002', 'info:name', 'fanbingbing' put 'user', 'rk0002', 'info:gender', 'female' put 'user', 'rk0002', 'info:nationality', '中国' get 'user', 'rk0002', {FILTER => "ValueFilter(=, 'binary:中国')"} 查询user表中的所有信息 scan 'user' 查询user表中列族为info的信息 scan 'user', {COLUMNS => 'info'} scan 'user', {COLUMNS => 'info', RAW => true, VERSIONS => 5} scan 'persion', {COLUMNS => 'info', RAW => true, VERSIONS => 3} 查询user表中列族为info和data的信息 scan 'user', {COLUMNS => ['info', 'data']} scan 'user', {COLUMNS => ['info:name', 'data:pic']} 查询user表中列族为info、列标示符为name的信息 scan 'user', {COLUMNS => 'info:name'} 查询user表中列族为info、列标示符为name的信息,并且版本最新的5个 scan 'user', {COLUMNS => 'info:name', VERSIONS => 5} 查询user表中列族为info和data且列标示符中含有a字符的信息 scan 'user', {COLUMNS => ['info', 'data'], FILTER => "(QualifierFilter(=,'substring:a'))"} 查询user表中列族为info,rk范围是[rk0001, rk0003)的数据 scan 'people', {COLUMNS => 'info', STARTROW => 'rk0001', ENDROW => 'rk0003'} 查询user表中row key以rk字符开头的 scan 'user',{FILTER=>"PrefixFilter('rk')"} 查询user表中指定范围的数据 scan 'user', {TIMERANGE => [1392368783980, 1392380169184]} 删除数据 删除user表row key为rk0001,列标示符为info:name的数据 delete 'people', 'rk0001', 'info:name' 删除user表row key为rk0001,列标示符为info:name,timestamp为1392383705316的数据 delete 'user', 'rk0001', 'info:name', 1392383705316 清空user表中的数据 truncate 'people' 修改表结构 首先停用user表(新版本不用) disable 'user' 添加两个列族f1和f2 alter 'people', NAME => 'f1' alter 'user', NAME => 'f2' 启用表 enable 'user' ###disable 'user'(新版本不用) 删除一个列族: alter 'user', NAME => 'f1', METHOD => 'delete' 或 alter 'user', 'delete' => 'f1' 添加列族f1同时删除列族f2 alter 'user', {NAME => 'f1'}, {NAME => 'f2', METHOD => 'delete'} 将user表的f1列族版本号改为5 alter 'people', NAME => 'info', VERSIONS => 5 启用表 enable 'user' 删除表 disable 'user' drop 'user' get 'person', 'rk0001', {FILTER => "ValueFilter(=, 'binary:中国')"} get 'person', 'rk0001', {FILTER => "(QualifierFilter(=,'substring:a'))"} scan 'person', {COLUMNS => 'info:name'} scan 'person', {COLUMNS => ['info', 'data'], FILTER => "(QualifierFilter(=,'substring:a'))"} scan 'person', {COLUMNS => 'info', STARTROW => 'rk0001', ENDROW => 'rk0003'} scan 'person', {COLUMNS => 'info', STARTROW => '20140201', ENDROW => '20140301'} scan 'person', {COLUMNS => 'info:name', TIMERANGE => [1395978233636, 1395987769587]} delete 'person', 'rk0001', 'info:name' alter 'person', NAME => 'ffff' alter 'person', NAME => 'info', VERSIONS => 10 get 'user', 'rk0002', {COLUMN => ['info:name', 'data:pic']}
    转载请注明原文地址: https://ju.6miu.com/read-963113.html

    最新回复(0)