在实际开发中,程序需要把大文本或二进制数据保存到数据库。
基本概念:大数据也称之为LOB(Large Objects),LOB又分为: clob和blob 1. clob用于存储大文本。 2. blob用于存储二进制数据,例如图像、声音、二进制文等。
对MySQL而言只有blob,而没有clob,mysql存储大文本采用的是Text,Text和blob分别又分为:
TINYTEXT、TEXT、MEDIUMTEXT和LONGTEXTTINYBLOB、BLOB、MEDIUMBLOB和LONGBLOB对于MySQL中的Text类型,可调用如下方法设置: PreparedStatement.setCharacterStream(index, reader, length); //注意length长度须设置,并且设置为int型
对MySQL中的Text类型,可调用如下方法获取: reader = resultSet. getCharacterStream(i); reader = resultSet.getClob(i).getCharacterStream(); string s = resultSet.getString(i);
对于MySQL中的BLOB类型,可调用如下方法设置: PreparedStatement. setBinaryStream(i, inputStream, length);
对MySQL中的BLOB类型,可调用如下方法获取: InputStream in = resultSet.getBinaryStream(i); InputStream in = resultSet.getBlob(i).getBinaryStream();
Oracle中大数据处理:
Oracle定义了一个BLOB字段用于保存二进制数据,但这个字段并不能存放真正的二进制数据,只能向这个字段存一个指针,然后把数据放到指针所指向的Oracle的LOB段中, LOB段是在数据库内部表的一部分。因而在操作Oracle的Blob之前,必须获得指针(定位器)才能进行Blob数据的读取和写入。如何获得表中的Blob指针呢? 可以先使用insert语句向表中插入一个空的blob(调用oracle的函数empty_blob() ),这将创建一个blob的指针,然后再把这个empty的blob的指针查询出来,这样就可得到BLOB对象,从而读写blob数据了。Oracle中LOB类型的处理: 1、插入空blob insert into test(id,image) values(?,empty_blob()); 2、获得blob的cursor select image from test where id= ? for update; Blob b = rs.getBlob(“image”); 注意: 须加for update,锁定该行,直至该行被修改完毕,保证不产生并发冲突。 3、利用 io,和获取到的cursor往数据库读写数据 注意:以上操作需开启事务。
业务场景:当需要向数据库发送一批SQL语句执行时,应避免向数据库一条条的发送执行,而应采用JDBC的批处理机制,以提升执行效率。
实现批处理有两种方式,第一种方式: Statement.addBatch(sql) list执行批处理SQL语句 executeBatch()方法:执行批处理命令 clearBatch()方法:清除批处理命令 Connection conn = null; Statement st = null; ResultSet rs = null; try { conn = JdbcUtil.getConnection(); String sql1 = "insert into user(name,password,email,birthday) values('kkk','123','abc@sina.com','1978-08-08')"; String sql2 = "update user set password='123456' where id=3"; st = conn.createStatement(); st.addBatch(sql1); //把SQL语句加入到批命令中 st.addBatch(sql2); //把SQL语句加入到批命令中 st.executeBatch(); } finally{ JdbcUtil.free(conn, st, rs); } 采用Statement.addBatch(sql)方式实现批处理: 优点:可以向数据库发送多条不同的SQL语句。 缺点: SQL语句没有预编译。当向数据库发送多条语句相同,但仅参数不同的SQL语句时,需重复写上很多条SQL语句。例如: Insert into user(name,password) values(‘aa’,’111’); Insert into user(name,password) values(‘bb’,’222’); Insert into user(name,password) values(‘cc’,’333’); Insert into user(name,password) values(‘dd’,’444’);实现批处理的第二种方式: PreparedStatement.addBatch()
conn = JdbcUtil.getConnection(); String sql = "insert into user(name,password,email,birthday) values(?,?,?,?)"; st = conn.prepareStatement(sql); for(int i=0;i<50000;i++){ st.setString(1, "aaa" + i); st.setString(2, "123" + i); st.setString(3, "aaa" + i + "@sina.com"); st.setDate(4,new Date(1980, 10, 10)); st.addBatch(); if(i%1000==0){ st.executeBatch(); st.clearBatch(); } } st.executeBatch();采用PreparedStatement.addBatch()实现批处理 优点:发送的是预编译后的SQL语句,执行效率高。 缺点:只能应用在SQL语句相同,但参数不同的批处理中。因此此种形式的批处理经常用于在同一个表中批量插入数据,或批量更新表的数据。
示例:
Connection conn = JdbcUtil.getConnection(); String sql = "insert into user(name,password,email,birthday) values('abc','123','abc@sina.com','1978-08-08')"; PreparedStatement st = conn. prepareStatement(sql,Statement.RETURN_GENERATED_KEYS ); st.executeUpdate(); ResultSet rs = st.getGeneratedKeys(); //得到插入行的主键 if(rs.next()) System.out.println(rs.getObject(1));注:此参数仅对insert操作有效。
什么是存储过程? A:未完待写。
编写存储过程(参看mysql文档) 得到CallableStatement,并调用存储过程: CallableStatement cStmt = conn.prepareCall(“{call demoSp(?, ?)}”);
设置参数,注册返回值,得到输出 cStmt.registerOutParameter(2, Types.VARCHAR); cStmt.setString(1, “abcdefg”); cStmt.execute(); System.out.println(cStmt.getString(2));
事务指逻辑上的一组操作,组成这组操作的各个单元,要不全部成功,要不全部不成功。 例如:A——B转帐,对应于如下两条sql语句 update from account set money=money+100 where name=‘b’; update from account set money=money-100 where name=‘a’;
数据库开启事务命令 start transaction 开启事务 Rollback 回滚事务 Commit 提交事务
在JDBC代码中使如下转帐操作在同一事务中执行。 update from account set money=money-100 where name=‘a’; update from account set money=money+100 where name=‘b’; 设置事务回滚点 Savepoint sp = conn.setSavepoint(); Conn.rollback(sp); Conn.commit(); //回滚后必须要提交
原子性(Atomicity)原子性是指事务是一个不可分割的工作单位,事务中的操作要么都发生,要么都不发生。
一致性(Consistency)事务必须使数据库从一个一致性状态变换到另外一个一致性状态。
隔离性(Isolation)事务的隔离性是多个用户并发访问数据库时,数据库为每一个用户开启的事务,不能被其他事务的操作数据所干扰,多个并发事务之间要相互隔离。
持久性(Durability)持久性是指一个事务一旦被提交,它对数据库中数据的改变就是永久性的,接下来即使数据库发生故障也不应该对其有任何影响。
多个线程开启各自事务操作数据库中数据时,数据库系统要负责隔离操作,以保证各个线程在获取数据时的准确性。 如果不考虑隔离性,可能会引发如下问题:
1. 脏读: 指一个事务读取了另外一个事务未提交的数据。 这是非常危险的,假设A向B转帐100元,对应sql语句如下所示 1.update account set money=money+100 while name=‘b’; 2.update account set money=money-100 while name=‘a’; 当第1条sql执行完,第2条还没执行(A未提交时),如果此时B查询自己的帐户,就会发现自己多了100元钱。如果A等B走后再回滚,B就会损失100元。
2. 不可重复读:
在一个事务内读取表中的某一行数据,多次读取结果不同。 例如银行想查询A帐户余额,第一次查询A帐户为200元,此时A向帐户内存了100元并提交了,银行接着又进行了一次查询,此时A帐户为300元了。银行两次查询不一致,可能就会很困惑,不知道哪次查询是准的。
和脏读的区别是,脏读是读取前一事务未提交的脏数据,不可重复读是重新读取了前一事务已提交的数据。
很多人认为这种情况就对了,无须困惑,当然是后面的为准。我们可以考虑这样一种情况,比如银行程序需要将查询结果分别输出到电脑屏幕和写到文件中,结果在一个事务中针对输出的目的地,进行的两次查询不一致,导致文件和屏幕中的结果不一致,银行工作人员就不知道以哪个为准了。
3. 虚读(幻读)
是指在一个事务内读取到了别的事务插入的数据,导致前后读取不一致。如丙存款100元未提交,这时银行做报表统计account表中所有用户的总额为500元,然后丙提交了,这时银行再统计发现帐户为600元了,造成虚读同样会使银行不知所措,到底以哪个为准。数据库共定义了四种隔离级别:
Serializable:可避免脏读、不可重复读、虚读情况的发生。(串行化)Repeatable read:可避免脏读、不可重复读情况的发生。(可重复读)Read committed:可避免脏读情况发生(读已提交)。Read uncommitted:最低级别,以上情况均无法保证。(读未提交)set transaction isolation level 设置事务隔离级别 select @@tx_isolation 查询当前事务隔离级别
事务隔离级别不是每个数据库都有,如mysql有以上四种隔离级别,但oracle只有Serializable和Read committed级别。
1.当把事务的隔离级别设置为read uncommitted时,会引发脏读、不可重复读和虚读
A窗口 set transaction isolation level read uncommitted; start transaction; select * from account; —–发现a帐户是1000元,转到b窗口 select * from account —–发现a多了100元,这时候a读到了b未提交的数据(脏读)
B窗口 start transaction; update account set money=money+100 where name=’aaa’; —–不要提交,转到a窗口查询
2.当把事务的隔离级别设置为read committed时,会引发不可重复读和虚读,但避免了脏读
A窗口 set transaction isolation level read committed; start transaction; select * from account; —–发现a帐户是1000元,转到b窗口 select * from account; —–发现a帐户多了100,这时候,a读到了别的事务提交的数据,两次读取a帐户读到的是不同的结果(不可重复读)
B窗口 start transaction; update account set money=money+100 where name=’aaa’; commit; —–转到a窗口
3.当把事务的隔离级别设置为repeatable read(mysql默认级别)时,会引发虚读,但避免了脏读、不可重复读
A窗口 set transaction isolation level repeatable read; start transaction; select * from account; —-发现表有4个记录,转到b窗口 select * from account; —-可能发现表有5条记如,这时候发生了a读取到另外一个事务插入的数据(虚读)
B窗口 start transaction; insert into account(name,money) values(‘ggg’,1000); commit; —–转到 a窗口
4.当把事务的隔离级别设置为Serializable时,会避免所有问题
A窗口 set transaction isolation level Serializable; start transaction; select * from account; —–转到b窗口
B窗口 start transaction; insert into account(name,money) values(‘ggg’,1000); —–发现不能插入,只能等待a结束事务才能插入