CN101449246B

CN101449246B - 用于集群恢复的装置和方法

Info

Publication number: CN101449246B
Application number: CN2007800185453A
Authority: CN
Inventors: C·B·比肯; S·马什雷德; R·B·尼科尔森
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-06-02
Filing date: 2007-05-31
Publication date: 2010-10-20
Anticipated expiration: 2027-05-31
Also published as: CN101449246A; JP2009539160A; US8107359B2; JP5235871B2; US20100054120A1; WO2007141180A2; WO2007141180A3; GB0611038D0

Abstract

一种用于在集群系统中进行非破坏性错误恢复的装置，包括：节点实例配置活动停顿组件，用于停顿在第一虚拟节点实例处的配置活动；节点实例创建组件，用于创建I/O访问被阻塞的第二虚拟节点实例；配置传送组件，用于从所述第一虚拟节点实例向所述第二虚拟节点实例传送配置数据；提交组件，用于提交从所述第一虚拟节点实例到所述第二虚拟节点实例的转换；节点实例通信阻塞组件，用于阻塞进入第一虚拟节点实例的通信；节点实例通信解阻塞组件，用于解阻塞在所述第二虚拟节点实例处的I/O访问；通信控制组件，用于监控从所述第一虚拟节点实例外发的通信并信号发送关于所有未决的外发通信已完成；以及节点实例删除组件，用于删除所述第一虚拟节点实例。

Description

用于集群恢复的装置和方法

技术领域

本发明涉及用于在高可用性集群软件(clustered software)中进行错误恢复的技术，特别涉及在存储网络控制器中进行错误恢复的技术。

背景技术

在高可用性集群软件中，多个节点协作以向用户提供服务。高可用性集群需要存在一些复制的状态或元数据信息，该信息由软件使用以便提供其特性。集群状态的内部一致对于产品的正确运行是至关重要的。关于内部一致，我们的意思是例如该软件中的不同层具有对对象数目的相同计数等等。

在高可用性集群软件中，希望保持100％的可用性或尽可能地接近该目标。但是，在代码中可能存在软件故障。软件错误恢复过程可用于高可用性集群软件。这些错误恢复过程使得在发生软件故障时集群能恢复。错误恢复过程被设计成确保内部状态保持一致。不幸的是，软件错误可导致集群状态的不一致，从而可以引起进一步的软件故障。有时仅仅当另一个故障发生时，才发现这些软件错误，这可导致在生产环境中大范围、高花费的停机。为了在这些软件错误发生时将其修复，采用修复来修补在集群状态中已识别的错误。但是，不可能保证在集群状态中没有进一步的未发现的缺陷。

为了保证作为之前集群恢复的结果的没有进一步的不一致，必须重新安装存储虚拟化软件并将集群状态重新初始化到其初始状态，但这是一种破坏性过程。重新安装的一个选择是运行层3(Tier 3)恢复程序(从归档存储中还原数据)，这同样是破坏性的。另一个选择是建立新集群并将其配置成与原始集群相同。这将必须(通过利用例如主机镜像)传输数据。在某些系统中，可以进行这项操作而无需停止I/O。这种解决方案的缺点是花费高：需要额外的硬件(两倍的节点，额外的存储器)，并且要求可观的资源利用来迁移到新集群。新硬件的引入也带来硬件故障的风险，硬件故障潜在地增大问题。

因此，希望有一种技术手段，用于以非破坏性和不依赖于系统以及存储管理者的时间和努力形式的额外硬件和资源的方式，在高可用性集群软件中进行错误恢复。

发明内容

因此，本发明的第一方面提供了一种用于在集群系统中进行非破坏性错误恢复的装置，包括：节点实例配置活动停顿(quiesce)组件，用于停顿在第一虚拟节点实例处的配置活动；节点实例创建组件，用于创建I/O访问被阻塞的第二虚拟节点实例；节点实例配置传送组件，用于从所述第一虚拟节点实例向所述第二虚拟节点实例传送配置数据；提交(commit)组件，用于提交从所述第一虚拟节点实例到所述第二虚拟节点实例的转换；节点实例通信阻塞组件，用于阻塞进入第一虚拟节点实例的通信；节点实例通信解阻塞(unblock)组件，用于解阻塞在所述第二虚拟节点实例处的I/O访问；通信控制组件，用于监控从所述第一虚拟节点实例外发的通信并信号发送关于所有未决的外发通信的完成；以及节点实例删除组件，用于删除所述第一虚拟节点实例。

优选地，单个指导器(director)组件控制所述停顿组件、所述节点实例创建组件、所述节点实例配置传送组件、所述提交组件、所述节点实例通信阻塞组件、所述节点实例通信解阻塞组件、所述通信控制组件和所述节点实例删除组件。

优选地，所述单个指导器组件可与一个或多个过滤器组件协作以控制所述停顿组件、所述节点实例创建组件、所述节点实例配置传送组件、所述提交组件、所述节点实例通信阻塞组件、所述节点实例通信解阻塞组件、所述通信控制组件和所述节点实例删除组件中的一个或多个组件。

在优选实施例中，集群系统包括根据所述第一方面的装置。

在优选实施例中，存储虚拟化系统包括根据所述第一方面的装置。

本发明的第二方面提供了一种用于在集群系统中执行非破坏性错误恢复的方法或逻辑配置，包括以下步骤：停顿在第一虚拟节点实例处的配置活动；创建I/O访问被阻塞的第二虚拟节点实例；从所述第一虚拟节点实例向所述第二虚拟节点实例传送配置数据；提交从所述第一虚拟节点实例向所述第二虚拟节点实例的转换；阻塞进入第一虚拟节点实例的通信；解阻塞在所述第二虚拟节点实例处的I/O访问；监控从所述第一虚拟节点实例外发的通信并信号发送关于所有未决的外发通信的完成；以及删除所述第一虚拟节点实例。

优选地，单个指导组件控制所述停顿、创建、传送、提交、阻塞、解阻塞、监控、信号发送以及删除步骤。

优选地，所述单个指导组件可与一个或多个过滤器组件协作以控制所述停顿、创建、传送、提交、阻塞、解阻塞、监控、信号发送以及删除步骤中的一个或多个步骤。

第三方面提供了一种其上具有功能数据的数据载体，所述功能数据包括功能计算机数据结构，以便当所述功能数据被加载到计算机系统中并在其上运行时，使得所述计算机系统能够执行根据所述第二方面的方法的所有步骤。

第四方面提供了一种包括计算机程序代码的计算机程序，以便当所述计算机程序被加载到计算机系统中并在其上执行时，使得所述计算机系统能够执行根据所述第二方面的方法的所有步骤。

因而，本发明的优选实施例在其最广的方面设想一种用于在高可用性集群软件中进行错误恢复的技术框架。

本发明的优选实施例与已知系统相比具有这样的优点：它不需要额外的硬件(存储虚拟化节点、存储子系统)，因而减少了成本和通过新硬件引入新问题的风险。另一个优点是，它不需要停止主机I/O。而且，优选实施例比本领域已知系统更加高效，原因在于它不需要额外存储和系统管理者的时间和努力形式的额外资源。

附图说明

下面将仅通过举例的方式，参考附图来说明本发明的优选实施例，在附图中：

图1到图4以示意图形式示出根据本发明的优选实施例的运行中的装置或装置配置。

图5以流程图形式示出一种方法或一种逻辑配置，其中可以实施根据本发明的优选实施例的操作的方法。

具体实施方式

本发明的优选实施例在存储网络中被实施，该存储网络在其节点处具有存储虚拟化控制器。

图1中示出提供存储虚拟化的存储区域网控制器的例子。框图示出参与的硬件组件或配置的单个实例。但是，对于本领域技术人员而言清楚的是，对于集群内的所有节点，各种组件将是相同的。正如本领域技术人员所知的，集群是使用多个设备和互连来形成的，其在外部呈现为单个系统。

在图1中，示出包括节点实例102的装置100的配置，虚拟硬盘104附接到该节点实例102。节点实例102可操作地连接到过滤器106，而过滤器106又连接到一个或多个虚拟外部设备108。节点实例102和虚拟外部设备108可以可操作地连接到指导器110，指导器110与虚拟机监控器112通信。虚拟机监控器112以常规方式连接到硬盘驱动器114以及一个或多个外部设备116。

在图1中，节点实例102(第一虚拟机)运行存储虚拟化节点软件。

转到图2，图2示出包括图1的所有元件和下列附加元件的装置：节点实例102’连接到虚拟硬盘104’和过滤器106’。过滤器106’和虚拟外部设备108’之间的连接被禁用。节点实例102’运行没有事件历史的存储虚拟化的干净(clean)的实例，并包含干净的集群状态。

在运行中，虚拟机监控器112(VMM)创建并删除虚拟机(VM)，诸如示例性节点实例102、102’。VMM将I/O设备(例如以太网、串行端口、FC适配器)虚拟化并使其可由所有虚拟机访问；即，VMM接收I/O并将其正确地分配给目标虚拟机。它还允许虚拟机发送I/O。在一个实施例中，使用诸如Xen之类的已知虚拟化技术来实现上述操作，但是可替换的虚拟化技术对于本领域技术人员将是显而易见的。

指导器110是协调组件，用于控制虚拟机的创建、从第一虚拟机到第二虚拟机的切换，以及最终删除第一虚拟机。它可访问这两个虚拟机，访问其虚拟I/O设备及其虚拟硬盘。

过滤器106、106’定义VM可接收和发送的事件集合。在正常运行期间，事件集合是用于控制应用的可能事件的完全集合。当在第二节点实例102’处创建了第二VM时，其相应的过滤器106’将允许事件的该子集，其中所述事件的该子集是配置所述控制应用所需的，而不是定义其外视图(external view)的事件。

有一个存储虚拟化节点的活动实例，即从本例开始的节点实例102。当VMM接收关于刷新存储虚拟化集群状态的请求时，VMM启动第二实例(在本例中是节点102’)的创建。指导器110利用来自第一节点实例102的元数据和配置信息，调整第二节点实例102’的配置。第二实例的过滤器106’确保没有用户I/O通过。对所有虚拟外部设备的访问都被禁用。必要时，指导器110向这些外部设备提供假接口(falseinterface)(例如，假UPS)。

一旦第二节点实例102’完全运行，指导器110发布提交，这使得两个过滤器的行为都发生变化，如图3所示。第一节点实例102不再接收外部信号；但是，它可以完成未完成的I/O。现在，第二节点实例102’完全运行：使用所有虚拟外部设备以及接收并完成I/O。指导器110监控要由第一实例完成的未完成的I/O。

一旦所有的I/O都已经从第一节点实例102完成，指导器110启动第一实例的删除，如图4所示。然后，在节点实例102’的控制下并使用其相应的附接组件104’、106’、108’而不是节点实例102及组件104、106、108，来进行所有集群活动。

因而，以装置形式的本发明优选实施例有利地解决了提供用于在高可用性集群软件中进行错误恢复的技术框架的问题。

图5以流程图的形式示出根据本发明的优选实施例的一般过程流。

在开始步骤200，单个节点实例在正常运行模式下运行。在步骤202，接收集群刷新请求。在步骤204，创建第二节点实例，但是阻塞第二节点实例以使其不能获得外部信号。在步骤206，使用取自第一节点实例的配置数据(但不是状态数据)，如上所述地配置第二节点实例。当步骤206的配置活动完成时，在步骤208发布提交。在步骤210，第一节点实例被阻塞以使其不能获得外部信号，而在步骤212，解阻塞在第二节点处的I/O。在步骤214，所有在第一节点实例处未决的I/O都已经完成，而在步骤216，删除第一节点实例。在步骤218，操作继续。

因此，可以看到，在节点实例2中的替代软件继承了来自节点实例1的配置数据，但是没有继承来自节点实例1的任何可能的故障状态。

下面是节点实例转换过程的一个实施方式的详细描述：

1.清洗节点实例102的所有盘的高速缓存(清洗在所有存储虚拟化节点上的高速缓存并将所有盘变成高速缓存禁用模式/禁用存储虚拟化高速缓存)。

2.停止在节点实例102上的所有配置活动。

3.将节点实例102的层3元数据和配置数据复制到节点实例102’的虚拟硬盘。

4.创建节点实例102’，并利用来自所述虚拟硬盘的层3元数据和存储虚拟化配置备份数据来镜像实例1的配置。

5.所有I/O继续通过节点实例102，直到节点实例102’完全运行为止。

6.节点实例102’尚未接收任何I/O。其高速缓存和节点实例102的高速缓存一样都保持为空。

7.一旦节点实例102’与节点实例102相同(就其配置和范围图(extent map)而言，而不是就其事件历史而言)，进行切换到节点实例102’的提交。

8.移除节点实例102’。

9.启用节点实例102’上的高速缓存。

对本领域技术人员而言清楚的是，上述描述涉及到集群中的单个实体，并且需要在集群中的所有节点上协调同一过程。这通过指导器110来实现。一旦如上所述地完全建立了集群中所有的节点实例102’，则节点实例102’通知所有指导器110，然后指导器110通知相应的节点实例102。通过这样的方式，可进行受控切换。

因而，以方法或逻辑配置形式的本发明的优选实施例有利地解决了提供用于在高可用性集群软件中进行错误恢复的技术框架的问题。

因此，通过在请求集群状态的非破坏性重装/刷新时利用虚拟化技术来激活所有存储虚拟化节点的资源的虚拟化，所述优选实施例得以运行。这允许存储虚拟化软件的两个实例运行在相同的存储虚拟化节点上——集群状态可能不一致的原始版本和其集群状态被重新初始化的新版本。新版本从原始版本复制所需的最少数据，以便利用其范围图重新生成原始配置。一旦存储虚拟化软件的新版本在所有节点上运行，I/O就被重定向到新集群而不影响主机系统或存储子系统。一旦完成切换就删除原始版本，并可去激活存储资源的虚拟化。在一个例子中，可使用诸如Xen之类的已知虚拟化技术，但是对于本领域技术人员而言清楚的是，同样可应用其它等效的虚拟化技术。

对于本领域技术人员而言清楚的是，可适当地且有用地在一个逻辑装置或多个逻辑装置中实施本发明的优选实施例的方法的全部或部分，所述逻辑装置包括用于执行所述方法的步骤的逻辑元件，并且这样的逻辑元件可包括硬件组件、固件组件或其组合。

同样对于本领域技术人员而言清楚的是，可适当地在逻辑装置中实施根据本发明的优选实施例的逻辑配置的全部或部分，所述逻辑装置包括用于执行所述方法的步骤的逻辑元件，并且这样的逻辑元件可包括诸如在例如可编程逻辑阵列或专用集成电路中的逻辑门之类的组件。这样的逻辑配置也可实施在用于利用例如虚拟硬件叙词语言(descriptor language)在阵列或电路中临时或永久建立逻辑结构的启用元件中，所述虚拟硬件叙词语言可使用固定或可发送的载体介质来存储并发送。

应当理解，还可适当地在运行在一个或多个处理器(图中未示出)上的软件中完全或部分地执行上述方法和配置，并且可以以在诸如磁盘、光盘之类的任何合适的数据载体(图中也未示出)上携带的一个或多个计算机程序元件的形式来提供所述软件。用于数据传输的信道同样可以包括所有说明的存储介质以及信号携带介质，诸如有线或无线信号携带介质。

本发明还可适当地被实施为与计算机系统一起使用的计算机程序产品。这样的实施方式可包括一系列的计算机可读指令，该指令或者位于诸如计算机可读介质——例如磁带、CD-ROM、ROM或硬盘——之类的有形介质上，或者可经调制解调器或其它接口设备被发送到计算机系统，所述发送或者通过有形介质——包括但不限于光或模拟通信线路——来发送，或者使用无线技术——包括但不限于微波、红外或其它传输技术——来无形地发送。所述一系列的计算机可读指令实现前面所描述的功能的全部或部分。

本领域技术人员将理解，这样的计算机可读指令可以多种程序语言写成以便与多种计算机架构或操作系统一起使用。而且，这样的指令可使用任何现有的或将来的存储技术来存储，所述存储技术包括但不限于半导体、磁、光，或者利用任何现有的或将来的通信技术来发送，所述通信技术包括但不限于光、红外或微波。预计这样的计算机程序产品可作为具有随附的打印或电子文档的可移动介质——例如在例如系统ROM或固定盘上与计算机系统一起预加载的收缩包装软件(shrink-wrapped software)——而被发布，或通过例如因特网或万维网之类的网络从服务器或电子公告牌来发布。

可替换地，可以以计算机实现的部署服务的方法的形式来实施本发明的优选实施例，所述方法包括步骤：部署计算机程序代码，所述计算机程序代码在被部署到计算机体系结构中并在其上执行时，可运行以使所述计算机系统执行所述方法的所有步骤。

对于本领域技术人员而言清楚的是，可对前述示例性实施例进行许多改进和修改而不背离本发明的范围。

Claims

1.一种用于在集群系统中进行非破坏性错误恢复的装置，包括：

节点实例配置活动停顿组件，用于停顿在第一虚拟节点实例处的配置活动；

节点实例创建组件，用于创建I/O访问被阻塞的第二虚拟节点实例；

节点实例配置传送组件，用于从所述第一虚拟节点实例向所述第二虚拟节点实例传送配置数据；

提交组件，用于提交从所述第一虚拟节点实例到所述第二虚拟节点实例的转换；

节点实例通信阻塞组件，用于阻塞进入第一虚拟节点实例的通信；

节点实例通信解阻塞组件，用于解阻塞在所述第二虚拟节点实例处的I/O访问；

通信控制组件，用于监控从所述第一虚拟节点实例外发的通信并信号发送关于所有未决的外发通信的完成；以及

节点实例删除组件，用于删除所述第一虚拟节点实例。

2.根据权利要求1所述的装置，其中单个指导器组件控制所述停顿组件、所述节点实例创建组件、所述节点实例配置传送组件、所述提交组件、所述节点实例通信阻塞组件、所述节点实例通信解阻塞组件、所述通信控制组件和所述节点实例删除组件。

3.根据权利要求2所述的装置，其中所述单个指导器组件可与一个或多个过滤器组件协作以控制所述停顿组件、所述节点实例创建组件、所述节点实例配置传送组件、所述提交组件、所述节点实例通信阻塞组件、所述节点实例通信解阻塞组件、所述通信控制组件和所述节点实例删除组件中的一个或多个组件。

4.一种包括前述任一权利要求所述的装置的集群系统。

5.一种包括权利要求1-3中任一项所述的装置的存储虚拟化系统。

6.一种用于在集群系统中执行非破坏性错误恢复的方法，包括以下步骤：

停顿在第一虚拟节点实例处的配置活动；

创建I/O访问被阻塞的第二虚拟节点实例；

从所述第一虚拟节点实例向所述第二虚拟节点实例传送配置数据；

提交从所述第一虚拟节点实例到所述第二虚拟节点实例的转换；

阻塞进入第一虚拟节点实例的通信；

解阻塞在所述第二虚拟节点实例处的I/O访问；

监控从所述第一虚拟节点实例外发的通信并信号发送关于所有未决的外发通信的完成；以及

删除所述第一虚拟节点实例。

7.根据权利要求6所述的方法，其中单个指导组件控制所述停顿、创建、传送、提交、阻塞、解阻塞、监控、信号发送以及删除步骤。

8.根据权利要求7所述的方法，其中所述单个指导组件可与一个或多个过滤器组件协作以控制所述停顿、创建、传送、提交、阻塞、解阻塞、监控、信号发送以及删除步骤中的一个或多个步骤。