CN1776657A - 支持系统管理设备和管理支持系统的方法 - Google Patents

支持系统管理设备和管理支持系统的方法 Download PDF

Info

Publication number
CN1776657A
CN1776657A CNA2005100849156A CN200510084915A CN1776657A CN 1776657 A CN1776657 A CN 1776657A CN A2005100849156 A CNA2005100849156 A CN A2005100849156A CN 200510084915 A CN200510084915 A CN 200510084915A CN 1776657 A CN1776657 A CN 1776657A
Authority
CN
China
Prior art keywords
reflection
lock register
system comprises
main
main lock
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100849156A
Other languages
English (en)
Other versions
CN100461149C (zh
Inventor
蒂莫西·J·克劳福德
布兰登·L·亨特
布赖恩·A·里纳尔蒂
理查德·A·里普伯格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1776657A publication Critical patent/CN1776657A/zh
Application granted granted Critical
Publication of CN100461149C publication Critical patent/CN100461149C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Abstract

一种计算机系统,包括向主虚拟服务器报告事件、故障和失效的支持系统。尽管支持系统可由大量虚拟服务器访问和使用,但只有主虚拟服务器可以管理该支持系统。支持系统包括主锁寄存器、心跳定时器和数字处理设备(“处理器”)。当初始化时,并且如果主锁寄存器为空,则虚拟服务器通过将其标识写入主锁寄存器来声明对支持系统的所有权,从而成为主虚拟服务器。主虚拟服务器向支持系统发送周期性心跳,以告知其仍然可用并且进行控制。如果心跳定时器在没有来自主虚拟服务器的通信的情况下到期,则处理器清除主锁寄存器,并发送邀请所有连接的虚拟服务器尝试声明控制的广播消息。

Description

支持系统管理设备和管理支持系统的方法
技术领域
本发明一般地涉及数据存储系统领域。具体而言,本发明由用于管理计算机支持系统的系统组成。
背景技术
在图1中,计算机存储系统10包括主机服务器(“主机”)12、数据处理服务器14、数据存储系统16以及诸如电源18a、电池18b、风扇18c和温度传感器18d的各种支持系统18。每个数据处理服务器14可以包括被分组为处理群集(cluster)(“群集”)20的多个处理设备,并且可以是基本上相同和冗余的。如图2所示,可以在计算机存储系统10的物理组件上施加被称为映像(image)22的大量虚拟化的存储服务器。每个映像22通常驻留在两个或多个群集上。然而,如果一个群集失效,则映像22可以失效转移(failover)到剩余的群集。
支持系统18是提供除数据存储之外的服务的硬件设备。每个映像22通常具有对这些设备的访问权,并且可以使用这些设备。此外,这些支持设备18可具有产生与事件、故障和失效有关的报告的能力。然而,只有一个映像22应当拥有每个支持系统18,即,负责接受这些报告、响应这些事件、故障和失效,并管理这些支持系统。该拥有(owning)映像被称为主(master)映像。然而,每个映像都可以访问支持系统的服务。因此,期望具有这样的系统,该系统用于在允许其它映像访问支持系统的同时建立对支持系统18的所有权。
一种方法是为每个硬件映像提供单独的一套支持系统18。然而,由于需要多个设备并且每个都可能严重利用不足,因此该方法非常昂贵。所以,期望具有用于建立对支持系统18的所有权的有效且经济的系统。
另一种方法是使用静态的多层(multi-tiered)架构,其允许一个映像拥有硬件,而其它映像经由映像到映像的通信通过拥有映像来访问该设备。然而,如果被分派了管理支持系统18的任务的映像22失效,则出现问题,从而阻止其它可用(viable)映像使用支持系统18。因此,期望具有用于动态地建立对支持系统18的所有权的系统。
在传统的动态系统中,系统用户可以建立主映像。随后,如果主映像失效或者被脱机,则系统用户可以建立不同的主映像。然而,该方法需要系统用户方面的主动干预。如果系统用户不是即时可用,则支持系统18将变得不受管理,并且可能阻止全部映像访问该支持系统。因此,期望拥有用于建立不需要系统用户主动干预的主映像的动态系统。
动态所有权的预定等级允许所有权从一个映像传递到另一个映像,而没有系统用户的干预。可以建立包括主要主映像和关联的次要主映像的缺省配置文件(profile)。然而,每当映像的等级改变时都必须修改该配置文件。因此,期望具有自己动态建立的动态所有权的系统。
在美国专利5553287中,Bailey等人公开了一种计算机系统,用于通过与用来动态地管理I/O连通性的部件相连接的信道子系统,可切换地将输入/输出(“I/O”)设备连接到主机。Bailey的发明包括与硬件资源相关的集中式控制锁。然而,没有提供资源以标识哪个映像负责管理每个硬件资源。期望具有标识所述拥有映像的主锁。
在美国专利申请2003/0120743A1中,Coatney等人公开了一种用于实施所有权的系统,包括将所有权信息写入设备的预定区域。然而,没有采取预防措施以确保主映像保持可用。换言之,如果主映像承担了对支持系统的18的所有权并随后失效,那么该支持系统可能不知道主映像的失效。通常,这种情况需要通过映像到映像的通信来选择新的主映像。这需要映像互相知晓。然而,有时期望具有普通硬件上的独立系统,而避免使用映像到映像的通信。因此,期望具有这样的系统,该系统用于建立不需要映像到映像的通信、可扩展(scalable)并且不需要系统用户干预、失效转移配置文件或显著停机时间(downtime)的主映像。
发明内容
在此公开的本发明使用主锁寄存器,其可由计算机系统中的每个虚拟化的服务器(“映像”)访问。主锁寄存器可以驻留在每个支持系统中或负责监控多个支持系统的设备上。当建立映像时,其访问主锁寄存器,以确定是否已经分配了主锁。如果没有,则该映像将其标识(“ID”)写入主锁寄存器,从而成为主映像。只要该映像的ID保留在主锁寄存器中,该映像就拥有与主锁寄存器相关的支持系统。主锁寄存器将对主锁的多个请求序列化(serialize),并且只有一个设备可以声明(assert)其ID。
尽管计算机系统中的每个映像可以访问和使用支持系统,但是只有主映像负责接收与支持系统事件、故障和失效有关的报告。此外,只有主映像可以管理相关的支持系统。
为了确保支持系统被主动管理,主映像必须发送周期性消息(“心跳(heartbeat)”)到支持系统。主映像和支持系统之间的任何形式的有规律的通信都可以充当心跳。连同主锁寄存器一起,支持系统包括心跳定时器和数字处理设备(“处理器”)。如果心跳定时器由于缺乏由主映像进行的通信而到期,则处理器清除主锁寄存器,并发送指示支持系统需要新的主映像的广播消息。该广播消息引发每个连接的映像试图占有主锁,就像它们在初始化期间所做的那样。这允许所有权从一个映像动态地传递到另一个映像,而无需映像到映像的通信、系统用户干预、失效转移配置文件和所有权之间的显著停机时间。
也可以由全部映像周期性地对主锁进行轮询以检查所有权。这允许支持系统在未能接收到心跳消息时清除主锁,并消除发送广播消息的需要。
根据以下说明书中对本发明的描述、以及根据在所附权利要求中具体指出的新颖特征,本发明的各种其它目的和优点将变得清楚。因此,为了达到上述目的,本发明包括以下在附图中示出、在对优选实施例的详细描述中充分描述并在权利要求中具体指出的特征。然而,这种附图和描述仅公开了可以实践本发明的各种方式中的几种方式。
附图说明
图1是图示包括主机服务器、数据处理服务器、数据存储设备和支持系统的计算机存储系统的方框图。
图2是图示具有多个虚拟化的服务器(“映像”)的、图1的计算机存储系统的方框图。
图3是根据本发明的包括主锁寄存器、心跳定时器和数字处理设备(“处理器”)的计算机存储系统的方框图。
图4是图示动态拥有者算法的流程图。
具体实施方式
本发明基于使用主锁寄存器、心跳定时器和数字处理设备来在计算机系统中动态地建立一个或多个支持服务的所有权的思想。这里公开的本发明可以作为使用标准程序设计或工程技术来生产软件、固件、硬件或其任意组合的方法、装置或制造产品来实施。在此使用的术语“制造产品”是指在硬件或诸如光存储设备和易失性或非易失性存储设备的计算机可读介质中实施的代码或逻辑。这种硬件可包括但不限于现场可编程门阵列(“FPGA”)、特定用途集成电路(“ASIC”)、复杂可编程逻辑器件(“CPLD”)、可编程逻辑阵列(“PLA”)、微处理器或其它类似的处理器件。
参照附图,其中使用相同的附图标记和符号来指示相同的部分,图3是图示计算机存储系统110的方框图,该计算机存储系统110包括主机服务器(“主机”)112、数据处理服务器114、数据存储系统116和支持系统118。数据存储系统可以是大量单独的数据存储设备,例如硬盘驱动器、光学驱动器和磁带盒驱动器(tape-cartridge drive)。每个数据处理服务器114可包括被分组为处理群集(“群集”)120的多个处理设备,并且可以是基本上相同和冗余的。处理设备可以是微处理器、通用中央处理单元(“CPU”)、或者诸如FPGA、CPLD、PLA或ASIC的可编程逻辑器件。
支持设备118包括主锁寄存器124、心跳定时器126和数字处理设备(“处理器”)128。主锁寄存器124可以是存储设备中的存储单元或者处理器128中的寄存器。心跳定时器126可以是包括内部时钟信号的硬件设备,或者也可以由处理器中的逻辑结构构成。处理器128可以是微控制器、通用CPU、或者诸如FPGA、CPLD、PLA或ASIC的可编程逻辑器件。
施加在计算机存储系统110的物理组件上的是被称为映像122的大量虚拟化的存储服务器。每个映像122通常驻留在两个或多个群集中。然而,如果群集失效,映像122可以失效转移到剩余的群集。失效转移可以扩展到独立服务器、或非服务器设备。任何类型的复杂系统阵列,无论该系统是低级的简单HW设备还是复杂的企业级服务器,都可以利用该系统来协调主状态。
支持系统118是提供除数据存储之外的服务的硬件设备。在本发明的这一实施例中,支持系统118是连接到电源118a和电池118b的电力控制器卡。可替换地,支持系统可以是输入/输出设备、操作器面板、远程电力开关、风扇或风扇感测卡。支持系统不需要与电力有关。例如,服务控制台可以是在任何给定条件下仅由多个设备之一拥有的支持设备的示例。
每个支持系统可拥有它自己的单独保持的独立主锁,或者可以在上卷(roll up)设备中保持该主锁。例如,可以在电力控制器卡中保持整个电力系统的主锁,并且拥有该锁的系统拥有整个电力系统。在另一实施例中,单独的资源可具有其自己的主锁,并且可被独立地获得。该二分法(dichotomy)的典型示例是可以在每个风扇中或者在代表多个风扇的风扇感测卡中实施主锁。电力控制器卡所有权代表对整个电力系统的所有权。实施的选择取决于所使用的设备和系统复杂度。
每个映像122通常具有对这些设备的使用权,并且可以使用这些设备。此外,支持系统118产生与事件、故障和失效有关的报告。然而,只有一个映像122可以拥有每个支持系统118,即,负责接受这些报告、响应这些事件、故障和失效并管理这些支持系统。该拥有映像被称为主映像122a。本发明也可以在独立支持设备中实施。例如,支持服务设备18c包括其自己的主锁寄存器124、心跳定时器126和处理器128。实际上,主锁可以由一个设备、多个但是同步的设备(你拥有了一个就拥有它们全部)、或多个不同步的设备(每个映像可以独立地锁定每个设备)。
动态地建立主映像的过程由图4的动态拥有者算法200示出。每个主锁寄存器124可由每个映像122访问。当映像122被初始化时,在步骤202,它检查主锁寄存器124以便确定是否已经分配了主锁。如果没有,则在步骤204,该映像将其标识(“ID”)写入主锁寄存器,从而成为主映像。只要该映像的ID保留在主锁寄存器中,该映像就拥有与主锁寄存器相关的支持系统。主锁寄存器将对主锁的多个请求序列化,并且只有一个设备可以声明其ID。当映像被不同地配置以诸如CPU、存储器或带宽的资源时,该方法良好地发挥作用。
可以将系统设计成使得一个映像在获得该锁时具有优先权或优先地位。例如,第一映像可以在该锁处获得第一机会,并且只有在第一映像没有成功时其它映像才能开始尝试。除第一映像之外的所有映像被平等地对待,并具有拥有该主锁的平等机会。对于其中每个映像相同或者接近相同的系统,这一设计良好地发挥作用。
尽管计算机系统中的每个映像都可以访问和使用支持系统,但是只有主映像负责接收与支持系统事件、故障和失效有关的报告。此外,只有主映像可以管理相关的支持系统,即,管理支持系统的修复或替换。为了确保支持系统被主动管理,在步骤206,主映像发送周期性消息(“心跳”)到支持系统。在一个实施中,需要特定的心跳消息,使得支持系统可以确定主映像知道保持主锁的需要。在另一实施中,主映像和支持系统之间的任何形式的有规律的通信都可以充当心跳。第二种方法在不希望有发送额外心跳消息时的性能影响(performance hit)的情况下是优选的,而前一种方法对于其中存在极不频繁的通信或者目标支持设备的简单为优先的系统而言是优选的。
连同主锁寄存器一起,支持系统包括心跳定时器和数字处理设备(“处理器”)、ASIC、微控制器或公共中央处理器。
如果心跳定时器由于缺乏由主映像进行的通信而到期,则在步骤208,处理器清除主锁寄存器,并发送指示支持系统需要新的主映像的广播消息。该广播消息引发每个连接的映像试图占有主锁,就像它们在初始化期间所做的那样。可替换地,可以要求所有能够成为主映像的非主映像轮询主锁的状态并且查找锁空闲。前一种方法减小了映像处的开销,后一种方法减小了支持系统处的开销和复杂度。这一广播消息或者由一个非主映像进行的空闲锁的检测将引发映像尝试占有主锁,就像它们在初始化期间所做的那样。这允许所有权从一个映像动态地传递到另一个映像,而无需映像到映像的通信、系统用户干预、失效转移配置文件以及所有权之间的显著停机时间。
存在这样的实例,其中映像可能检测到空闲的锁,但是选择不尝试争夺主锁。例如,如果存在正在进行的服务或正对映像进行的维护,则该映像可以确定此时它不能或者不适合获得主锁。同样,如果当前正在使映像无效,那么由于它也将很快使该锁空出,因此它不会想夺取该锁。在锁仲裁中固有的开销成问题的系统中,设备应当设法尽可能不频繁地扰动(churn)该锁。可选地,系统可以检测和跟踪主锁的仲裁过程。例如,一种实施将使每个映像跟踪锁被空出了多少次,或者锁保持空闲多久,并且在适当的时候,当锁在太长时间内保持空闲、或者处于拖延的状态或重复的仲裁中时,可以请求、发起或建议服务或者维护动作。
制造计算机支持系统的本领域技术人员可以开发出本发明的其它实施例。然而,在前面的说明中采用的术语和表述在这里作为说明而非限制的术语而使用,并且在使用这种术语和表述时没有排除所示出和描述的特征的等同物或其部分的意图,所认识到的是仅由所附权利要求定义和限制本发明的范围。

Claims (37)

1.一种支持系统管理设备,包括:
支持系统,包括适配为保存标识(“ID”)的主锁寄存器;和
多个虚拟服务器,包括适配为将第一ID写入主锁寄存器并成为主映像的第一映像;
其中主映像向支持系统发送周期性心跳消息,以便指示主映像可用并且在控制支持系统。
2.如权利要求1所述的支持系统管理设备,其中,支持系统还包括心跳定时器和数字处理设备(“处理器”)。
3.如权利要求2所述的支持系统管理设备,其中,如果心跳定时器在支持系统接收到周期性的心跳消息之前到期,则处理器清除主锁寄存器,并向所述多个虚拟服务器发送广播消息。
4.如权利要求3所述的支持系统管理设备,其中,所述多个虚拟服务器检查主锁寄存器,以确定主锁寄存器是否为空。
5.如权利要求4所述的支持系统管理设备,其中,如果主锁寄存器为空,则第二映像将第二ID写入主锁寄存器,并成为主映像。
6.如权利要求5所述的支持系统管理设备,其中,支持系统包括电源。
7.如权利要求5所述的支持系统管理设备,其中,支持系统包括电池。
8.如权利要求5所述的支持系统管理设备,其中,支持系统包括风扇。
9.如权利要求5所述的支持系统管理设备,其中,支持系统包括温度传感器。
10.如权利要求5所述的支持系统管理设备,其中,支持系统包括电力控制器卡。
11.一种管理支持系统的方法,包括以下步骤:
在初始化虚拟服务器时,检查主锁寄存器以确定它是否为空;
如果主锁寄存器为空,则将第一映像的第一标识(“ID”)写入主锁寄存器;以及
将心跳消息从第一映像发送到支持系统。
12.如权利要求11所述的方法,还包括以下步骤:如果心跳定时器在支持系统接收到心跳消息之前到期,则清除主锁寄存器。
13.如权利要求12所述的方法,还包括以下步骤:向多个虚拟服务器发送广播消息。
14.如权利要求13所述的方法,还包括以下步骤:
检查主锁寄存器以确定它是否为空;
如果主锁寄存器为空,则将第二映像的第二标识(“ID”)写入主锁寄存器;以及
将心跳消息从第二映像发送到支持系统。
15.如权利要求14所述的方法,其中,支持系统包括电源。
16.如权利要求14所述的方法,其中,支持系统包括电池。
17.如权利要求14所述的方法,其中,支持系统包括风扇。
18.如权利要求14所述的方法,其中,支持系统包括温度传感器。
19.如权利要求14所述的方法,其中,支持系统包括电力控制器卡。
20.一种包括数据存储介质的制造产品,所述数据存储介质包括可由处理设备执行来实施算法的一组机器可读指令,所述算法包括以下步骤:
如果主锁寄存器为空,则将第一映像的第一标识(“ID”)写入主锁寄存器;以及
将心跳消息从第一映像发送到支持系统。
21.如权利要求20所述的制造产品,还包括以下步骤:如果心跳定时器在支持系统接收到心跳消息之前到期,则清除主锁寄存器。
22.如权利要求21所述的制造产品,还包括以下步骤:向多个虚拟服务器发送广播消息。
23.如权利要求22所述的制造产品,还包括以下步骤:
检查主锁寄存器以确定其是否为空;
如果主锁寄存器为空,则将第二映像的第二标识(“ID”)写入主锁寄存器;以及
将心跳消息从第二映像发送到支持系统。
24.如权利要求23所述的制造产品,其中,支持系统包括电源。
25.如权利要求23所述的制造产品,其中,支持系统包括电池。
26.如权利要求23所述的制造产品,其中,支持系统包括风扇。
27.如权利要求23所述的制造产品,其中,支持系统包括温度传感器。
28.如权利要求23所述的制造产品,其中,支持系统包括电力控制器卡。
29.一种提供用于管理支持系统的服务的方法,包括将计算机可读代码集成到计算系统中,其中与计算系统结合的计算机可读代码能够执行以下步骤:
如果主锁寄存器为空,则将第一映像的第一标识(“ID”)写入主锁寄存器;以及
将心跳消息从第一映像发送到支持系统。
30.如权利要求29所述的提供服务的方法,还包括以下步骤:如果心跳定时器在支持系统接收到心跳消息之前到期,则清除主锁寄存器。
31.如权利要求30所述的提供服务的方法,还包括以下步骤:向多个虚拟服务器发送广播消息。
32.如权利要求31所述的提供服务的方法,还包括以下步骤:
检查主锁寄存器以确定其是否为空;
如果主锁寄存器为空,则将第二映像的第二标识(“ID”)写入主锁寄存器;以及
将心跳消息从第二映像发送到支持系统。
33.如权利要求32所述的方法,其中,支持系统包括电源。
34.如权利要求32所述的方法,其中,支持系统包括电池。
35.如权利要求32所述的方法,其中,支持系统包括风扇。
36.如权利要求32所述的方法,其中,支持系统包括温度传感器。
37.如权利要求32所述的方法,其中,支持系统包括电力控制器卡。
CNB2005100849156A 2004-11-18 2005-07-25 支持系统管理设备和管理支持系统的方法 Expired - Fee Related CN100461149C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/991,781 2004-11-18
US10/991,781 US7496701B2 (en) 2004-11-18 2004-11-18 Managing virtual server control of computer support systems with heartbeat message

Publications (2)

Publication Number Publication Date
CN1776657A true CN1776657A (zh) 2006-05-24
CN100461149C CN100461149C (zh) 2009-02-11

Family

ID=36387981

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100849156A Expired - Fee Related CN100461149C (zh) 2004-11-18 2005-07-25 支持系统管理设备和管理支持系统的方法

Country Status (3)

Country Link
US (1) US7496701B2 (zh)
CN (1) CN100461149C (zh)
TW (1) TWI359363B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101542444B (zh) * 2006-11-17 2012-05-30 诺基亚公司 互连中心架构中的安全性特征
CN103384258A (zh) * 2012-05-04 2013-11-06 上海盛大网络发展有限公司 生成新主机的方法及系统

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7350117B2 (en) * 2004-10-05 2008-03-25 International Business Machines Corporation Management of microcode lock in a shared computing resource
US8156208B2 (en) 2005-11-21 2012-04-10 Sap Ag Hierarchical, multi-tiered mapping and monitoring architecture for service-to-device re-mapping for smart items
US8005879B2 (en) * 2005-11-21 2011-08-23 Sap Ag Service-to-device re-mapping for smart items
US7860968B2 (en) * 2005-11-21 2010-12-28 Sap Ag Hierarchical, multi-tiered mapping and monitoring architecture for smart items
US8522341B2 (en) 2006-03-31 2013-08-27 Sap Ag Active intervention in service-to-device mapping for smart items
US8065411B2 (en) * 2006-05-31 2011-11-22 Sap Ag System monitor for networks of nodes
US8131838B2 (en) 2006-05-31 2012-03-06 Sap Ag Modular monitor service for smart item monitoring
US8296413B2 (en) 2006-05-31 2012-10-23 Sap Ag Device registration in a hierarchical monitor service
US8396788B2 (en) 2006-07-31 2013-03-12 Sap Ag Cost-based deployment of components in smart item environments
US8201016B2 (en) * 2007-06-28 2012-06-12 Alcatel Lucent Heartbeat distribution that facilitates recovery in the event of a server failure during a user dialog
US8527622B2 (en) * 2007-10-12 2013-09-03 Sap Ag Fault tolerance framework for networks of nodes
US8341231B2 (en) * 2010-01-07 2012-12-25 Fujitsu Limited Systems and methods for processing heartbeat messages
US8365008B2 (en) * 2010-10-13 2013-01-29 International Business Machines Corporation Providing unsolicited global disconnect requests to users of storage
US20120198252A1 (en) * 2011-02-01 2012-08-02 Kirschtein Phillip M System and Method for Managing and Detecting Server Power Connections
US9317354B2 (en) 2014-01-31 2016-04-19 International Business Machines Corporation Dynamically determining an external systems management application to report system errors
CN104135571B (zh) * 2014-08-12 2016-05-25 中国联合网络通信集团有限公司 心跳定时器设置方法、终端和服务器
CN107124324B (zh) 2016-02-25 2020-09-01 阿里巴巴集团控股有限公司 一种基于租约的心跳协议方法和设备
CN107066480B (zh) * 2016-12-20 2020-08-11 创新先进技术有限公司 主备数据库的管理方法、系统及其设备
US11144358B1 (en) 2018-12-06 2021-10-12 Pure Storage, Inc. Asynchronous arbitration of shared resources

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU650242B2 (en) * 1989-11-28 1994-06-16 International Business Machines Corporation Methods and apparatus for dynamically managing input/output (I/O) connectivity
US5633999A (en) * 1990-11-07 1997-05-27 Nonstop Networks Limited Workstation-implemented data storage re-routing for server fault-tolerance on computer networks
US5825880A (en) * 1994-01-13 1998-10-20 Sudia; Frank W. Multi-step digital signature method and system
US6477648B1 (en) * 1997-03-23 2002-11-05 Novell, Inc. Trusted workstation in a networked client/server computing system
US6493824B1 (en) * 1999-02-19 2002-12-10 Compaq Information Technologies Group, L.P. Secure system for remotely waking a computer in a power-down state
US20020133728A1 (en) * 2000-11-14 2002-09-19 Sanjay Agarwal Network traffic based adaptive power management system for computer networks
WO2003025801A1 (en) * 2001-09-21 2003-03-27 Polyserve, Inc. System and method for implementing journaling in a multi-node environment
US7650412B2 (en) * 2001-12-21 2010-01-19 Netapp, Inc. Systems and method of implementing disk ownership in networked storage
TWM242781U (en) * 2002-11-25 2004-09-01 Quanta Comp Inc Blade server management system with auxiliary management structure
JP2004246439A (ja) * 2003-02-12 2004-09-02 Nec Corp クラスタシステムにおけるストール防止方式,方法およびプログラム
JP2005196467A (ja) * 2004-01-07 2005-07-21 Hitachi Ltd ストレージシステム、ストレージシステムの制御方法、及びストレージ制御装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101542444B (zh) * 2006-11-17 2012-05-30 诺基亚公司 互连中心架构中的安全性特征
CN103384258A (zh) * 2012-05-04 2013-11-06 上海盛大网络发展有限公司 生成新主机的方法及系统
CN103384258B (zh) * 2012-05-04 2019-05-24 上海盛大网络发展有限公司 生成新主机的方法及系统

Also Published As

Publication number Publication date
TW200627177A (en) 2006-08-01
TWI359363B (en) 2012-03-01
US20060107284A1 (en) 2006-05-18
CN100461149C (zh) 2009-02-11
US7496701B2 (en) 2009-02-24

Similar Documents

Publication Publication Date Title
CN100461149C (zh) 支持系统管理设备和管理支持系统的方法
EP1428149B1 (en) A system and method for a multi-node environment with shared storage
US7631066B1 (en) System and method for preventing data corruption in computer system clusters
US7028218B2 (en) Redundant multi-processor and logical processor configuration for a file server
US7945773B2 (en) Failover of blade servers in a data center
US7908251B2 (en) Quorum-based power-down of unresponsive servers in a computer cluster
US7543190B2 (en) System and method for detecting false positive information handling system device connection errors
JP2016181304A (ja) アプリケーションサーバとクラスタ化されたデータベースとを接続するためのシステムおよび方法
US7219254B2 (en) Method and apparatus for high availability distributed processing across independent networked computer fault groups
CN108153622B (zh) 一种故障处理的方法、装置和设备
US20140173336A1 (en) Cascading failover of blade servers in a data center
JP2008535054A (ja) 非同期イベント通知
JP2008192139A (ja) ノードクラスタの管理
JP2012508925A (ja) 直接接続ストレージ・システムのためのアクティブ−アクティブ・フェイルオーバー
CN111628893B (zh) 分布式存储系统的故障处理方法及装置、电子设备
US7134046B2 (en) Method and apparatus for high availability distributed processing across independent networked computer fault groups
US5765034A (en) Fencing system for standard interfaces for storage devices
US6480953B1 (en) Method and apparatus for ensuring system configuration data structure coherency across multiple controllers in a data storage system
WO2003054711A1 (en) A system and method for management of a storage area network
US7149918B2 (en) Method and apparatus for high availability distributed processing across independent networked computer fault groups
US7127637B2 (en) Method and apparatus for high availability distributed processing across independent networked computer fault groups
JP2001195123A (ja) プラントデータ管理システム
US10713138B2 (en) Failure detection for central electronics complex group management
CN217985239U (zh) 一种智能监控系统
CN116382850A (zh) 一种利用多存储心跳检测的虚拟机高可用管理装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090211

Termination date: 20150725

EXPY Termination of patent right or utility model