hibernate 多级缓存

作者: 这家伙很懒什么都没留下啊
来源: 51数据库
2021-01-30

缓存是介于应用程序和物理数据源之间，其作用是为了降低应用程序对物理数据源访问的频次，从而提高了应用的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。
缓存的介质一般是内存，所以读写速度很快。但如果缓存中存放的数据量非常大时，也会用硬盘作为缓存介质。缓存的实现不仅仅要考虑存储的介质，还要考虑到管理缓存的并发访问和缓存数据的生命周期。
Hibernate的缓存包括Session的缓存和SessionFactory的缓存，其中SessionFactory的缓存又可以分为两类：内置缓存和外置缓存。Session的缓存是内置的，不能被卸载，也被称为Hibernate的第一级缓存。SessionFactory的内置缓存和Session的缓存在实现方式上比较相似，前者是SessionFactory对象的一些集合属性包含的数据，后者是指Session的一些集合属性包含的数据。SessionFactory的内置缓存中存放了映射元数据和预定义SQL语句，映射元数据是映射文件中数据的拷贝，而预定义SQL语句是在Hibernate初始化阶段根据映射元数据推导出来，SessionFactory的内置缓存是只读的，应用程序不能修改缓存中的映射元数据和预定义SQL语句，因此SessionFactory不需要进行内置缓存与映射文件的同步。SessionFactory的外置缓存是一个可配置的插件。在默认情况下，SessionFactory不会启用这个插件。外置缓存的数据是数据库数据的拷贝，外置缓存的介质可以是内存或者硬盘。SessionFactory的外置缓存也被称为Hibernate的第二级缓存。
Hibernate的这两级缓存都位于持久化层，存放的都是数据库数据的拷贝，那么它们之间的区别是什么呢？为了理解二者的区别，需要深入理解持久化层的缓存的两个特性：缓存的范围和缓存的并发访问策略。
持久化层的缓存的范围
缓存的范围决定了缓存的生命周期以及可以被谁访问。缓存的范围分为三类。
1 事务范围：缓存只能被当前事务访问。缓存的生命周期依赖于事务的生命周期，当事务结束时，缓存也就结束生命周期。在此范围下，缓存的介质是内存。事务可以是数据库事务或者应用事务，每个事务都有独自的缓存，缓存内的数据通常采用相互关联的的对象形式。
2 进程范围：缓存被进程内的所有事务共享。这些事务有可能是并发访问缓存，因此必须对缓存采取必要的事务隔离机制。缓存的生命周期依赖于进程的生命周期，进程结束时，缓存也就结束了生命周期。进程范围的缓存可能会存放大量的数据，所以存放的介质可以是内存或硬盘。缓存内的数据既可以是相互关联的对象形式也可以是对象的松散数据形式。松散的对象数据形式有点类似于对象的序列化数据，但是对象分解为松散的算法比对象序列化的算法要求更快。
3 集群范围：在集群环境中，缓存被一个机器或者多个机器的进程共享。缓存中的数据被复制到集群环境中的每个进程节点，进程间通过远程通信来保证缓存中的数据的一致性，缓存中的数据通常采用对象的松散数据形式。
对大多数应用来说，应该慎重地考虑是否需要使用集群范围的缓存，因为访问的速度不一定会比直接访问数据库数据的速度快多少。
持久化层可以提供多种范围的缓存。如果在事务范围的缓存中没有查到相应的数据，还可以到进程范围或集群范围的缓存内查询，如果还是没有查到，那么只有到数据库中查询。事务范围的缓存是持久化层的第一级缓存，通常它是必需的；进程范围或集群范围的缓存是持久化层的第二级缓存，通常是可选的。
持久化层的缓存的并发访问策略
当多个并发的事务同时访问持久化层的缓存的相同数据时，会引起并发问题，必须采用必要的事务隔离措施。
在进程范围或集群范围的缓存，即第二级缓存，会出现并发问题。因此可以设定以下四种类型的并发访问策略，每一种策略对应一种事务隔离级别。
事务型：仅仅在受管理环境中适用。它提供了Repeatable Read事务隔离级别。对于经常被读但很少修改的数据，可以采用这种隔离类型，因为它可以防止脏读和不可重复读这类的并发问题。
读写型：提供了Read Committed事务隔离级别。仅仅在非集群的环境中适用。对于经常被读但很少修改的数据，可以采用这种隔离类型，因为它可以防止脏读这类的并发问题。
非严格读写型：不保证缓存与数据库中数据的一致性。如果存在两个事务同时访问缓存中相同数据的可能，必须为该数据配置一个很短的数据过期时间，从而尽量避免脏读。对于极少被修改，并且允许偶尔脏读的数据，可以采用这种并发访问策略。　　只读型：对于从来不会修改的数据，如参考数据，可以使用这种并发访问策略。
事务型并发访问策略是事务隔离级别最高，只读型的隔离级别最低。事务隔离级别越高，并发性能就越低。
什么样的数据适合存放到第二级缓存中？
1、很少被修改的数据
2、不是很重要的数据，允许出现偶尔并发的数据
3、不会被并发访问的数据
4、参考数据
不适合存放到第二级缓存的数据？
1、经常被修改的数据
2、财务数据，绝对不允许出现并发
3、与其他应用共享的数据。
Hibernate的二级缓存
如前所述，Hibernate提供了两级缓存，第一级是Session的缓存。由于Session对象的生命周期通常对应一个数据库事务或者一个应用事务，因此它的缓存是事务范围的缓存。第一级缓存是必需的，不允许而且事实上也无法比卸除。在第一级缓存中，持久化类的每个实例都具有唯一的OID。
第二级缓存是一个可插拔的的缓存插件，它是由SessionFactory负责管理。由于SessionFactory对象的生命周期和应用程序的整个过程对应，因此第二级缓存是进程范围或者集群范围的缓存。这个缓存中存放的对象的松散数据。第二级对象有可能出现并发问题，因此需要采用适当的并发访问策略，该策略为被缓存的数据提供了事务隔离级别。缓存适配器用于把具体的缓存实现软件与Hibernate集成。第二级缓存是可选的，可以在每个类或每个集合的粒度上配置第二级缓存。
Hibernate的二级缓存策略的一般过程如下：
1) 条件查询的时候，总是发出一条select * from table_name where …. （选择所有字段）这样的SQL语句查询数据库，一次获得所有的数据对象。
2) 把获得的所有数据对象根据ID放入到第二级缓存中。
3) 当Hibernate根据ID访问数据对象的时候，首先从Session一级缓存中查；查不到，如果配置了二级缓存，那么从二级缓存中查；查不到，再查询数据库，把结果按照ID放入到缓存。
4) 删除、更新、增加数据的时候，同时更新缓存。
Hibernate的二级缓存策略，是针对于ID查询的缓存策略，对于条件查询则毫无作用。为此，Hibernate提供了针对条件查询的Query缓存。
Hibernate的Query缓存策略的过程如下：
1) Hibernate首先根据这些信息组成一个Query Key，Query Key包括条件查询的请求一般信息：SQL, SQL需要的参数，记录范围（起始位置rowStart，最大记录个数maxRows)，等。
2) Hibernate根据这个Query Key到Query缓存中查找对应的结果列表。如果存在，那么返回这个结果列表；如果不存在，查询数据库，获取结果列表，把整个结果列表根据Query Key放入到Query缓存中。
3) Query Key中的SQL涉及到一些表名，如果这些表的任何数据发生修改、删除、增加等操作，这些相关的Query Key都要从缓存中清空。

　　首先我们来简单了解一下一级缓存。目前所有主流处理器大都具有一级缓存和二级缓存，少数高端处理器还集成了三级缓存。其中，一级缓存可分为一级指令缓存和一级数据缓存。一级指令缓存用于暂时存储并向cpu递送各类运算指令；一级数据缓存用于暂时存储并向cpu递送运算所需数据，这就是一级缓存的作用（如果大家对上述文字理解困难的话，可参照下图所示）。那么，二级缓存的作用又是什么呢？简单地说，二级缓存就是一级缓存的缓冲器：一级缓存制造成本很高因此它的容量有限，二级缓存的作用就是存储那些cpu处理时需要用到、一级缓存又无法存储的数据。同样道理，三级缓存和内存可以看作是二级缓存的缓冲器，它们的容量递增，但单位制造成本却递减。需要注意的是，无论是二级缓存、三级缓存还是内存都不能存储处理器操作的原始指令，这些指令只能存储在cpu的一级指令缓存中，而余下的二级缓存、三级缓存和内存仅用于存储cpu所需数据。根据工作原理的不同，目前主流处理器所采用的一级数据缓存又可以分为实数据读写缓存和数据代码指令追踪缓存2种，它们分别被amd和intel所采用。不同的一级数据缓存设计对于二级缓存容量的需求也各不相同，下面让我们简单了解一下这两种一级数据缓存设计的不同之处。一、amd一级数据缓存设计 amd采用的一级缓存设计属于传统的“实数据读写缓存”设计。基于该架构的一级数据缓存主要用于存储cpu最先读取的数据；而更多的读取数据则分别存储在二级缓存和系统内存当中。做个简单的假设，假如处理器需要读取“amd athlon 64 3000+ is good”这一串数据（不记空格），那么首先要被读取的“amdathl”将被存储在一级数据缓存中，而余下的“on643000+isgood”则被分别存储在二级缓存和系统内存当中（如下图所示）。需要注意的是，以上假设只是对amd处理器一级数据缓存的一个抽象描述，一级数据缓存和二级缓存所能存储的数据长度完全由缓存容量的大小决定，而绝非以上假设中的几个字节。“实数据读写缓存”的优点是数据读取直接快速，但这也需要一级数据缓存具有一定的容量，增加了处理器的制造难度（一级数据缓存的单位制造成本较二级缓存高）。二、intel一级数据缓存设计自p4时代开始，intel开始采用全新的“数据代码指令追踪缓存”设计。基于这种架构的一级数据缓存不再存储实际的数据，而是存储这些数据在二级缓存中的指令代码（即数据在二级缓存中存储的起始地址）。假设处理器需要读取“intel p4 is good”这一串数据（不记空格），那么所有数据将被存储在二级缓存中，而一级数据代码指令追踪缓存需要存储的仅仅是上述数据的起始地址（如下图所示）。由于一级数据缓存不再存储实际数据，因此“数据代码指令追踪缓存”设计能够极大地降cpu对一级数据缓存容量的要求，降低处理器的生产难度。但这种设计的弊端在于数据读取效率较“实数据读写缓存设计”低，而且对二级缓存容量的依赖性非常大。在了解了一级缓存、二级缓存的大致作用及其分类以后，下面我们来回答以下硬件一菜鸟网友提出的问题。从理论上讲，二级缓存越大处理器的性能越好，但这并不是说二级缓存容量加倍就能够处理器带来成倍的性能增长。目前cpu处理的绝大部分数据的大小都在0-256kb之间，小部分数据的大小在256kb-512kb之间，只有极少数数据的大小超过512kb。所以只要处理器可用的一级、二级缓存容量达到256kb以上，那就能够应付正常的应用；512kb容量的二级缓存已经足够满足绝大多数应用的需求。这其中，对于采用“实数据读写缓存”设计的amd athlon 64、sempron处理器而言，由于它们已经具备了64kb一级指令缓存和64kb一级数据缓存，只要处理器的二级缓存容量大于等于128kb就能够存储足够的数据和指令，因此它们对二级缓存的依赖性并不大。这就是为什么主频同为1.8ghz的socket 754 sempron 3000+（128kb二级缓存）、sempron 3100+（256kb二级缓存）以及athlon 64 2800+（512kb二级缓存）在大多数评测中性能非常接近的主要原因。所以对于普通用户而言754 sempron 2600+是值得考虑的。反观intel目前主推的p4、赛扬系列处理器，它们都采用了“数据代码指令追踪缓存”架构，其中prescott内核的一级缓存中只包含了12kb一级指令缓存和16kb一级数据缓存，而northwood内核更是只有12kb一级指令缓存和8kb一级数据缓存。所以p4、赛扬系列处理器对二级缓存的依赖性是非常大的，赛扬d 320（256kb二级缓存）与赛扬 2.4ghz（128kb二级缓存）性能上的巨大差距就很好地证明了这一点；而赛扬d和p4 e处理器之间的性能差距同样十分明显。最后，如果您是狂热的游戏发烧友或者从事多媒体制作的专业用户，那么具有1mb二级缓存的p4处理器和具有512kb/1mb二级缓存的athlon 64处理器才是您理想的选择。因为在高负荷的运算下，cpu的一级缓存和二级缓存近乎“爆满”，在这个时候大容量的二级缓存能够为处理器带来5%-10%左右的性能提升，这对于那些要求苛刻的用户来说是完全有必要的。