CN1614936A - 处理设备管理系统 - Google Patents

处理设备管理系统 Download PDF

Info

Publication number
CN1614936A
CN1614936A CNA2004100883881A CN200410088388A CN1614936A CN 1614936 A CN1614936 A CN 1614936A CN A2004100883881 A CNA2004100883881 A CN A2004100883881A CN 200410088388 A CN200410088388 A CN 200410088388A CN 1614936 A CN1614936 A CN 1614936A
Authority
CN
China
Prior art keywords
treatment facility
group
response
operating trouble
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004100883881A
Other languages
English (en)
Inventor
A·莫尼茨尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Medical Solutions USA Inc
Original Assignee
Siemens Medical Solutions Health Services Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Medical Solutions Health Services Corp filed Critical Siemens Medical Solutions Health Services Corp
Publication of CN1614936A publication Critical patent/CN1614936A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality

Abstract

一种系统自动地自适应修改处理设备组(集群)的备份设备的失效转移配置优先级列表,以便提高可用性并降低与人工配置相关的风险与成本。网络处理设备组内的独立处理设备利用一种系统来管理该组内的设备中发生的操作故障。所述系统包括接口处理器,它用来维持标识用于响应于第一处理设备的操作故障而接管执行第一处理设备的任务的第二处理设备的转换信息,并且用来响应于出现在组内的另一处理设备中的转换信息方面的变化来更新转换信息。操作检测器检测第一处理设备的操作故障。此外,故障控制器响应于第一处理设备的操作故障的检测来启动由第二处理设备执行指定将由第一处理设备执行的任务。

Description

处理设备管理系统
本申请是A.Monitzer于2003年11月6日提交的临时申请60/517,776号的非临时申请。
技术领域
本发明涉及一种用于管理网络处理设备组内的处理设备中发生的操作故障的系统。
背景技术
在各种行业(电信、保健、金融等)中,利用计算平台来向顾客提供高利用率在线网络访问服务。这些服务的运行时间(正常运行时间)是重要的,并且影响着顾客接受度、顾客满意度以及进行中的顾客关系。典型来讲,服务水平协议(SLA)是网络服务提供商与服务顾客之间的契约,该协议定义了服务可用(可用性)的保障时间百分率。如果终端用户不能在已提供的用户接口上执行定义好的功能性,则该服务就被视作为是不可用的。现有的计算网络实现方案采用失效转移(failover)集群结构,一旦设备集群(组)中的第一处理设备发生操作故障,所述失效转移集群结构就指定备份处理设备来承担第一处理设备的功能。已知的失效转移集群结构典型地使用处理设备(网络的节点)的静态列表(受保护对等节点列表),所述静态列表指定了用于承担遭受操作故障的处理设备的功能的备份处理设备。将列表预先配置成能确定集群内独立主动节点的备份节点的优先级。如果发生主动节点故障,则集群典型地试图按照列表上的最高优先级失效转移至第一可用的节点。
这种已知系统的一个问题就是:多个节点可能会失效到相同的备份节点上,这进一步导致因过载的计算机资源而引发的故障。此外,对于多个节点集群而言,现有的方法需要进行相当大量的配置操作来人工地配置备份处理设备。万一两个主动节点在多个节点集群中发生故障,而且给这两个主动节点都配置了与它们失效转移列表中的最高优先级相同的可用备份节点,那么这两个节点就会都失效转移到这个相同的备份节点上。这对于备份节点而言要求更高的计算机资源容量,并也增加了失效转移配置的成本。在现有的系统中,也许可以通过按照单个节点故障由用户人工再配置失效转移配置优先级列表来避免这种多个节点发生故障的情况。然而,这种操作节点集群的人工再配置不是直接了当的,而是包含了造成进一步的服务破坏的另一个主动节点故障的风险。此外,在现有的系统中,典型地将节点专用作主服务器,而将其它节点专用作从服务器。还可以把集群进一步分成更小的集群组。因此,如果由集群中的主组和从组或者独立的组共享的盘或存储器损坏时,该集群可能再也不能工作了。同样,在现有的系统中通常采用负载平衡操作来共享群集当中的设备中的工作负载,并且这包括增加风险的动态应用和复杂应用。根据本发明原理的系统提供了一种针对解决所提出的问题和缺陷的处理设备故障管理系统。
发明内容
一种根据下列因素自动地自适应修改处理设备组(集群)的备份设备的失效转移配置优先级列表以提高可用性并降低与人工配置相关的风险与成本的系统,所述因素包括例如:该组的当前负载状态、该组内设备的存储器使用率和该组内被动备份处理设备的可用性。网络处理设备组内的各个处理设备使用了一种用于管理出现在该组内的设备中的操作故障的系统。所述系统包括接口处理器,它用来维护标识用于响应于第一处理设备的操作故障而接管执行第一处理设备的任务的第二处理设备的转换信息,并且用来响应于出现在该组的另一个处理设备中的转换信息的变化而更新转换信息。操作检测器检测第一处理设备的操作故障。此外,故障控制器响应于第一处理设备的操作故障的检测来启动由第二处理设备执行指定将由第一处理设备执行的任务。
附图说明
图1示出根据本发明原理、网络处理设备组所使用的系统的框图,所述系统用于管理该组内的设备中发生的操作故障。
图2示出根据本发明原理、图1的用于管理网络处理设备组内的设备中发生的操作故障的系统所使用的过程的流程图。
图3示出根据本发明原理、由图1的系统管理的网络处理设备组的网络图。
图4示出根据本发明原理、由图1的系统管理的网络处理设备组的示例性配置。
图5-9示出根据本发明原理、举例说明如果发生设备操作故障则承担处理设备功能的备份处理设备的自动故障管理的优先表。
图10示出根据本发明原理、图1的用于管理网络处理设备组内的设备中发生的操作故障的系统的AFC 10所使用的过程的流程图。
具体实施方式
图1示出了包括用于管理经由通信网络20访问的网络处理设备组(未示出)内的处理设备(节点)中发生的操作故障的自动失效转移控制器(AFC)10的系统的框图。所述系统实现了多个节点的分组(集群)并且提高了整体集群可用性。系统中的集群内的独立节点具有为每个受保护的主动节点标识备份节点的优先级列表。所述列表包括主动节点的优先级列表,并可被称为受保护对等节点列表。在已知的现有故障系统实现方案中,受保护对等节点列表是静态的,因此在一个主动节点发生故障的情况下,故障管理系统在不依赖所发现的备份节点的当前资源利用率的情况下在优先级列表中搜索第一可用备份节点。与此相反,图1的系统针对集群中处理设备(节点)的当前状态,自动地适应并优化受保护对等节点列表。图1的系统有利于在集群配置中工作的多个节点的故障管理。节点是经由通信网络(例如网络20、LAN、内联网或因特网)连接于其它节点的单个处理设备或拓扑实体。这里所使用的处理设备包括:服务器、PC、PDA、笔记本、膝上型PC、移动式电话、机顶盒、TV或响应于已存储的代码化机器可读指令而提供功能的任何其它设备。应当注意,在此术语“节点”和“处理设备”以及术语“集群”和“组”可互换使用。
集群是连接于群聚网络且共享某些功能的节点组。集群所提供的功能是用软件或硬件实现的。参予集群的独立节点并入了故障处理功能并且向备份节点提供了故障管理(失效转移)能力。在图1的系统中,独立的节点还提供支持集群管理的处理器实现的功能,包括向集群添加节点以及从集群中删除节点。这里所使用的处理器是用于执行任务的设备和/或机器可读指令集。这里所使用的处理器包括硬件、固件和/或软件中的任何一个或其组合。处理器通过操纵、分析、修改、转换或发送可执行程序或信息设备所使用的信息和/或通过把信息路由至输出设备来处理信息。例如,处理器可以使用或包括控制器或微处理器的能力。
图1的系统根据对集群中节点的状态改变(例如,从可用到不可用)的检测对集群结构进行重新配置(并更新备份优先级列表)。这种重新配置功能例如是利用失效转移引擎14来实现的,所述失效转移引擎使用网络控制器12和网络20来通知主自动失效转移控制器(AFC)配置知识库40及其它AFC集群处理设备19关于状态改变的情况。失效转移引擎14还对网络控制器12所转发的配置变化和同步消息作出响应,以及对心跳引擎18所传送的通知作出响应。响应于接收到的消息,失效转移引擎14启动知识库16中存储的本地失效转移配置的修改,并经由网络控制器12和网络20向主配置知识库40及其它AFC单元19传送表明已修改的配置的数据。
图1的系统结构提供了能管理一个组内操作设备的多重故障的稳健配置。所述系统为包含多个处理设备的组动态地优化预定的处理设备备份列表中指明的配置。所述系统易于伸缩,以便万一发生多个节点故障,能适应节点数目的增加并降低AFC 10与其它AFC 19之间所需的数据通信量。此外,如果据优先级列表表明不同备份节点都是可用的,那么一旦在节点组内发生两个节点故障,这两个节点就不会失效转移到相同的备份节点上。所述系统降低或消除了对这样的人工干预和广泛测试的需要,所述人工干预和广泛测试是为了确保在特定节点承担发生故障节点或组的任务的操作之后其它主动节点能失效转移到不同于该特定节点的备份节点。这还减小了与修复和人工再配置相关的风险,也减少了集群配置的维护成本。
一个组内的独立节点包括自适应失效转移控制器(例如,AFC 10),它包括下面所述的提供功能和连接的各种模块。AFC 10的失效转移引擎14控制和配置AFC 10的其它模块,包括经由配置数据访问控制器45来配置的心跳引擎18、集群网络控制器12以及本地AFC配置数据知识库16。失效转移引擎14还初始化、维护和更新AFC 10所使用的状态机,并且采用和维护包含使用参数在内的其它相关数据。这些使用参数标识了用来执行特定计算机操作任务的资源以及在管理处理设备备份优先级列表过程中失效转移引擎14所使用的资源(例如,处理设备、存储器、CPU资源、IO资源)。将使用参数存储在本地AFC配置数据知识库16中。失效转移引擎14优选地利用状态和使用参数信息来优化处理设备组(例如,包括并入AFC 10的设备及独立地包含诸如其它AFC 19之类的AFC的其它设备)的受保护对等节点列表。失效转移引擎14按同步化方式从本地AFC配置数据知识库16中导出使用参数信息。此外,引擎14采用集群网络控制器12来更新一个组内的处理设备的状态和使用参数信息,这些状态和使用参数信息都保留在主AFC配置知识库40中,并且还更新保留在其它AFC 19的本地AFC配置数据知识库中的状态和使用参数信息。
失效转移引擎14经由失效转移心跳接口31向心跳引擎18传送包含本地AFC配置数据知识库16的数据标识更新的消息。心跳引擎利用配置数据访问控制器45、经由通信接口22从本地AFC配置数据知识库16中读取配置信息。心跳引擎18还利用集群网络控制器12来建立与使用从知识库16中获得的配置数据的其它AFC 19的心跳引擎之间的通信信道。配置数据访问控制器45经由接口22来支持对知识库16的读写访问,并且经由接口24来支持与失效转移引擎14之间的数据通信以及经由接口35来支持与心跳引擎18之间的数据通信。为了这个目的,配置数据访问控制器45采用了保护数据不在知识库16数据修改期间遭到误用的通信仲裁协议。
集群网络控制器12提供了分别支持失效转移引擎14和心跳引擎18访问网络20的通信接口27和38。控制器12提供了集群通信网络20上的双向网络连通服务,并支持从连接源到连接目的地之间的信息传送。具体地说,控制器12在专用网络连接(或者例如通过经由因特网动态分配的连接)上提供了从AFC 10到其它AFC 19或到主AFC配置知识库40的下列连通服务。控制器12支持AFC 10与其它节点的网络控制器(例如,其它AFC 19的控制器)之间的双向通信,集群网络控制器12是网际协议(IP)兼容的,但是也可以采用其它的协议,包括与开放系统互连(OSI)标准相兼容的协议(例如X.25)或与内联网标准相兼容的协议。另外,集群网络控制器12有利地提供了网络宽同步和数据内容自动发现机制以实现集群中处理设备的知识库中的优先级备份列表及其它信息的自动标识与更新。主AFC配置知识库40是为经由通信网络20网络化的处理设备提供非易失性数据存储的中央知识库。
图2示出图1的用于管理网络处理设备组内的设备中发生的操作故障的AFC 10所使用的过程的流程图。在起始于步骤200之后,AFC 10的失效转移引擎14初始化并命令集群网络控制器12连接于集群通信网络20。在步骤205中,响应于正可访问的集群网络20,失效转移引擎14从主AFC配置知识库40中获得可用的配置信息。失效转移引擎14在本地AFC配置数据知识库16中存储所获得的配置信息。如果主AFC配置知识库40是不可访问的,则在图2的过程的后续步骤中,故障引擎14就使用从本地AEC配置数据知识库16导出的配置信息。
在步骤210中,失效转移引擎14配置网络控制器12的自动发现功能以便自动检测处理设备中的其它AFC 19的状态和使用信息,所述处理设备包括与经由集群通信网络20连接的AFC 10相关联的集群。失效转移引擎14还注册为用于从主AFC配置知识库40中获得信息、识别组内处理设备的设备状态和使用参数信息方面的变化的侦听器。当在步骤210中设置集群网络控制器12之后,在步骤215中,失效转移引擎14启动心跳引擎18的操作。心跳引擎18从本地AFC配置数据知识库16中获得包含受保护对等节点列表的配置信息,并且利用集群网络控制器12来建立AFC 10与其它AFC 19之间的心跳通信。具体地说,心跳引擎18利用集群网络控制器12来建立AFC 10与其它AFC 19之间的心跳通信,其中所述其它AFC 19将AFC 10指明为其它AFC 19的独立受保护对等节点列表中的备份节点。心跳通信包括定期的信息交换以证实独立的对等节点仍然是工作的。如果在AFC 10的受保护对等节点列表中标识的节点发生故障,那么失效转移引擎14就还向其它AFC 19及将要通知的主AFC配置知识库40进行注册。图1的系统有利地在步骤215中利用集群宽配置、同步化和发现来通知心跳引擎18对其它AFC 19的本地AFC配置数据知识库16的状态改变和更新。心跳引擎18还对处理设备的相关联集群中的节点的失效转移策略进行优化。
在步骤220中,失效转移引擎14有利地利用已获得的处理设备状态和使用参数信息来更新本地AFC配置数据知识库16,并且利用集群网络控制器12来使这些更新与对主AFC配置知识库40及其它AFC 19的更新同步化。具体地说,集群网络控制器12通知失效转移引擎14关于对主AFC配置知识库40及其它AFC 19进行的自动发现的更新,并且失效转移引擎14利用这个已获得的信息来更新本地知识库16。同样,心跳引擎18通知失效转移引擎14受保护对等节点的可用性方面的变化,并且失效转移引擎14利用这个已获得的信息来更新本地知识库16。失效转移引擎14使已获得的信息和通知相关,并优化本地AFC配置数据16中存储的集群宽受保护对等节点列表。图2的过程在步骤230终止。
通常在现有的系统中采用负载平衡操作来共享集群中的设备内的工作负担。为了这个目的,例如(分别地或组合地)利用已测定的CPU(中央处理器)使用率和IOPS(接口每秒钟操作次数)总数,来平衡从频繁使用的服务器到另一个机器的负载量。此外,在现有系统中的处理设备的集群典型地以这样一种配置进行工作,即其中节点都是主动的并且对集群的新来的负载请求被发布并跨越集群中的可用服务器平衡这些负载请求。主服务器控制跨越服务器的负载的发布和平衡。测定发布给主动节点的负载,并向主节点报告。
相反,将AFC 10的结构用作为主动/被动配置,在这种配置中若干主动节点接收入站负载并共享被动的失效转移节点(在没有主动节点负载平衡的情况下)。负载平衡是增加额外风险和降低设备可用性的复杂应用。从客户端设备向虚拟IP地址转发请求,所述虚拟IP地址能够经由通信网络20从一个物理端口被移至另一个物理端口。同已知的系统相比,专用的主单元不控制集群,并且它是根据所发布的备份节点的优先级列表来作出决策的。因此,AFC 10中的失效转移管理是根据优先化的备份设备优先级列表来进行的。在另一个实施例中,AFC 10的结构利用例如采用诸如CPU负载使用率、存储器使用率和IOPS总数之类参数的有效负载平衡来平衡跨越集群中主动服务器的负载。
图3示出了由图1的系统的管理的网络处理设备组的网络图。具体地说,图3包括主动-被动集群的网络图。主动节点300和302以及被动节点304和306都连接于客户端通信网络60,以便向连接于这个网络的处理设备307和309提供服务和为集群内部通信提供服务。节点300-306也都连接于存储系统以及相关联的存储区网络311,以便提供集群所使用的共享驱动。此外,这些节点可以安装有相同的软件(操作系统、应用程序等)。主动节点(300、302)具有与连接于客户端通信网络60的物理端口相关联的一个或多个虚拟IP地址。被动节点(304、306)没有与连接于客户端通信网络60的它们的物理端口相关联的虚拟IP地址。客户端设备(307、309)向与主动节点300和302的其中一个相关联的虚拟IP地址传送消息请求和数据。如果发生失效转移(例如,一个或多个节点300-302的故障),则被动节点(例如,节点304或306)就获得主动节点的虚拟IP地址的所有权,并把它分配给它自己的物理端口。虚拟资源失效转移到备份资源。响应于虚拟IP地址的分配,被动节点变为主动的,并且变成主动节点组。
如果发生失效转移,则出现故障的处理设备所正在执行的那些操作或事务就会丢失。由故障设备正在执行或者即将执行的那些记录在工作日志里的工作和事务由承担有故障设备的工作的备份设备来执行(或重新执行)。图4示出了由图1的系统管理的网络处理设备组的示例性配置结构。具体地说,图4的配置结构示出了三个主动节点(节点1、2和3)以及两个备份节点(节点4和5),但是可以容易地将这个配置扩展成更多的备份节点。备份节点4或备份节点5都可以充当独立的主动节点1、2和3的主备份节点或次备份节点。主动节点1、2和3执行相同应用程序的拷贝并且这些节点的相应虚拟IP地址分配给对应节点物理端口。被动节点4和5都处于备用模式,并且不具有分配给它们各自的物理端口的虚拟IP地址。
图5-9示出了举例说明备份处理设备的自动故障管理的优先表,如果发生设备操作故障则所述备份处理设备就会承担图4的处理设备的功能。图5的备份优先级列表存储在每个AFC(图4的AFC1-5)中。图5表示主备份节点4利用心跳引擎(例如,图1的单元18)来监视受保护节点。具体地说,备份节点4是节点1、节点2和节点5的主备份节点。如果受监视的节点1、2或5的其中一个发生故障,那么节点4就获得特定虚拟IP地址的所有权以及有故障节点的虚拟服务器的所有权,并变成不可用的状态。在图5的备份列表中,节点状态:A=可用的、N=不可用的。
在示例性操作中,被动节点4经历了操作的问题。具体地说,例如,如果节点4需要承担由发生故障的节点1、2或5中的一个正在执行的任务,那么存储器容量的减小将会降低它承担工作负载的能力。随后,在解决节点4上的问题以前,主动节点1发生故障。
在现有已知(空载平衡)的系统中,节点1可能不利地重复而失败地试图失效转移到由图5的列表表明正处于可用状态的节点4上。这导致相当可观的操作中断。相反,在图1的系统中,节点4检测它自己的存储器容量的减小,并更新它在其备份优先级列表中的节点状态项,如图6中所示。具体地说,存储在(图6中所示的)节点4中的备份节点列表举例说明了节点4的节点状态项(项600)已经变为不可用的。然而,如在图7中举例说明的那样,起初其它节点1-3和5的备份节点列表未曾接收到更新节点4的可用性状态的信息。
其它节点1-3和5利用自动发现法从节点4的AFC单元中获得更新后的节点4可用性信息。在询问连接于网络20的集群中其它节点的备份列表信息的过程中,节点1-3和5的ACC采用了网络控制器12(图1)。在另一个实施例中,节点4的AFC单元检测备份列表信息变化,并且经由网络20把更新后的信息传送给节点1-3和5以及主AFC知识库40。在获得并发布已更新的备份列表信息的过程中,网络控制器12采用通信和路由协议以供将节点4的备份列表可用性信息传送给节点1-3和5。为了这个目的,网络控制器12采用了包含OSPF(开放式最短路径优先)路由协议的IP兼容的通信协议以及与IETF(因特网工程任务组)相兼容的协议:例如RFC1131、RFC1247、RFC1583、RFC1584、RFC2178、RFC2328和RFC2370,来向节点1-3和5以及主AFC知识库40发布代表节点4的状态信息的数据。RFC(请求说明)文档是可经由因特网获得的,并且是由因特网标准工作组来准备的。
图8示出了遵循由节点1-5各自的AFC接收的表示节点4的状态信息的数据处理的节点1-5的备份优先级列表,以及它们在本地知识库(比如,知识库16)中各自的备份优先级列表的更新。节点1-5的备份优先级列表示出了在哪里节点4被指定为主备份节点或次备份节点(图8中的项800-808),现在响应于状态变化更新将它标记为不可用的。图8示出了在图8中举例说明的节点4在与图4的系统的5个节点的备份方案相对应的5列中都是不可用的。因此,现在节点5是节点1(主不可用:次变为主)、节点2(主不可用:次变为主)和节点3的主备份。
节点5(使用诸如图1的单元18之类的心跳引擎)检测节点1中的故障,验证已出现检测到的故障,接管将由节点1执行的任务,并且更新记录在其本地知识库里的其备份列表。节点5中的网络控制器12按照前面描述的方式将表示节点5状态方面的变化(标识到不可用状态的变化)的数据传送给节点1-4。通过使用先前描述的路由和通信协议,把状态变化信息传送给节点1-4,以确保一致的备份列表信息。这保证了在节点1-5中一致地更新所述信息。图9示出了遵循由节点1-5各自的AFC接收的表示节点5的状态信息的数据的处理的节点1-5的备份优先级列表,以及它们在本地知识库(例如,知识库16)中各自的备份优先级列表的更新。在判断可用备份节点的过程中,系统失效转移策略采用了集群参数(例如,状态和资源使用信息)。这有利地降低了失效转移状况期间的宕机时间,还减少了人工的系统重新配置。
在可选的实施例中,由独立的节点将备份优先级列表信息传送给主AFC知识库40,并且各个节点1-5从知识库40中获得备份节点列表信息。节点1-5的独立节点响应于状态变化或存储在独立节点本地知识库(例如,知识库16)中的备份列表信息方面的变化的检测,在知识库40中存储备份列表信息。对存储在知识库40中的备份列表信息进行的更新是由知识库系统40响应于对知识库40中已存储的备份列表信息方面的变化的检测而传送给节点1-5的。在另一个实施例中,节点1-5的独立节点间歇地询问知识库40以获得更新后的备份列表信息。
图10示出了图1的用于管理网络处理设备组(集群)内的设备中发生的操作故障的系统的AFC 10所使用的过程的流程图,所述网络处理设备采用了类似的可执行软件。在步骤702中,在起始于步骤701后,AFC 10在内部知识库中维护标识用于响应于第一处理设备的操作故障来接管执行指定将由第一处理设备执行的任务的第二当前不操作的被动处理设备的转换信息。处理设备的操作故障包括例如软件执行故障或硬件故障。所述转换信息包括处理设备的优先化备份列表,以供响应于第一处理设备的操作故障而承担执行第一处理设备的任务。在步骤704中,AFC 10响应于下列检测来更新转换信息,包括:(a)组内的另一个处理设备的操作故障的检测、或(b)低于预定阈值的组内的另一个处理设备的可用存储器的检测。在步骤706中,AFC 10检测第一处理设备的操作故障。在步骤708中,响应于对第一处理设备的操作故障的检测,AFC 10启动由第二处理设备来执行指定将由第一处理设备执行的任务。
在步骤712中,AFC 10响应于来自组内的另一个处理设备的通信,动态地更新内部存储的备份设备优先级列表信息,以便在该组内独立的处理设备中维护一致的转换信息。具体地说,响应于下列因素来动态地更新内部存储的优先级列表,所述因素包括:组内的另一个处理设备的检测、或低于预定阈值的组内的另一个处理设备的可用存储器的检测。所述因素还包括:(a)超过预定阈值的组内的另一个处理设备的工作负载的操作故障的检测、(b)超过预定阈值的组内的另一个处理设备的CPU(中央处理器)资源的使用的检测、或(c)在预定的时间周期内,超过预定阈值的组内的另一个处理设备的许多I/O(输入/输出)操作的检测。此外,还响应于由组内不同的处理设备提供的状态信息,来动态地更新优先表,所述状态信息表明已检测出的组内另一个处理设备的状态从可用到不可用的变化,或已检测出的组内另一个处理设备的状态从不可用到可用的变化。为了这个目的,AFC 10询问组内的其它处理设备以识别出现在组内另一个处理设备当中的转换信息方面的变化。图10的过程在步骤718终止。
图1的系统有利地根据参予集群的节点的参数(例如,失效转移状态、资源使用)来适应集群失效转移备份列表配置。所述系统还根据所述这些参数来优化备份节点列表,并且根据更新后的备份节点列表适应心跳操作。所述系统利用自动发现功能来提供节点1-5中维持的参数的集群宽自动同步,以便检测节点1-5的本地知识库中所存储的备份列表信息方面的变化。
图1-10中展示的系统和过程都不是排他性的。可以依照本发明的原理推导出其它的系统和过程以实现相同的目的。尽管已经参照特定的实施例描述了本发明,但是将要理解的是,在此所示和所述的实施例和变形都仅仅是示例性的。本领域的技术人员在不背离本发明的范围的情况下,可以实现对当前设计的修改。根据本发明原理的系统提供了高可用性的应用和操作系统软件。此外,系统10(图1)提供的任何功能都可以用硬件、软件或上述两者的组合加以实现,并且可以驻留在位于链接图1的元件的网络或另外链接的网络(包括另一个内联网或因特网)的任意位置上的一个或多个处理设备中。

Claims (15)

1.一种供网络处理设备组的独立处理设备使用的系统,用于管理所述组内的设备中发生的操作故障,包括:
接口处理器,用于维持标识用于响应于所述第一处理设备的操作故障而接管执行第一处理设备的任务的第二处理设备的转换信息,以及用于响应于出现在所述组的另一个处理设备中的转换信息方面的变化来更新所述转换信息;
操作检测器,用于检测所述第一处理设备的操作故障;和
故障控制器,用于响应于所述第一处理设备的操作故障的检测来启动由所述第二处理设备执行指定将由所述第一处理设备执行的任务。
2.根据权利要求1所述的系统,其中:
所述网络处理设备组的每个独立的处理设备包括有存储转换信息的知识库,以及
所述独立处理设备都保持通信以便在所述独立处理设备中维持一致的转换信息。
3.根据权利要求1所述的系统,其中:
所述转换信息包括用于响应于所述第一处理设备的操作故障而承担执行第一处理设备的任务的处理设备的优先表,
响应于来自所述组的另一处理设备的通信而动态地更新所述优先表,以及
所述优先表表示用于响应于所述第一处理设备的操作故障而承担执行第一处理设备的任务的被动非操作处理设备。
4.根据权利要求3所述的系统,其中:
响应于多个因素而动态地更新所述优先表,所述多个因素包括下列因素中的至少一个:(a)所述组内的另一处理设备的操作故障的检测,和(b)低于预定阈值的所述组内的另一处理设备的可用存储器的检测,以及
所述多个因素包括下列中的至少一个:(a)超过预定阈值的所述组内的另一处理设备的工作负载的检测、(b)超过预定阈值的所述组内的另一个处理设备的CPU(中央处理器)资源的使用的检测,和(c)在预定时间周期内超过预定阈值的所述组内的另一处理设备的多个I/O(输入-输出)操作的检测。
5.根据权利要求3所述的系统,其中:
所述优先表被动态地更新成表示至少下列其中之一的状态信息:(a)已检测到的所述组内另一处理设备的状态从可用到不可用的变化,和(b)已检测到的所述组内另一处理设备的状态从不可用到可用的变化,包括:
所述接口处理器根据由所述组内的不同处理设备提供的状态信息来判断所述组内处理设备的状态。
6.根据权利要求1所述的系统,包括:
所述接口处理器询问所述组内的其它处理设备以便识别出现在所述组内另一处理设备中的转换信息方面的变化,其中:
处理设备的操作故障包括(a)软件执行故障和(b)硬件故障中的至少一个。
7.根据权利要求1所述的系统,其中:
处理设备包括下列中至少一个:(a)服务器、(b)计算机、(c)PC、(d)PDA、(e)电话、(f)经由无线通信进行通信的处理设备、(g)电视、(h)机顶盒、和(i)包括可执行软件的网络设备并且
所述组内的独立处理设备包括有与所述组内其它处理设备相类似的软件。
8.根据权利要求1所述的系统,其中:
所述组包括集群,而处理设备包括节点。
9.一种供网络处理设备组内的独立处理设备使用的系统,用于管理所述组内的设备中发生的操作故障,包括:
独立处理设备,包括:
知识库,包含标识用于响应于所述第一处理设备的操作故障而接管执行指定将由第一处理设备执行的任务的第二处理设备的转换信息;
接口处理器,用于响应于出现在所述组内另一个处理设备中的转换信息方面的变化而维持和更新所述转换信息;
操作检测器,用于检测所述第一处理设备的操作故障;和
故障控制器,用于响应于所述第一处理设备的操作故障的检测来启动由所述第二处理设备执行指定将由所述第一处理设备执行的任务。
10.根据权利要求9所述的系统,其中:
所述接口处理器与所述组内的其它处理设备进行通信,以便在所述独立的处理设备转换信息知识库中维持一致的转换信息。
11.一种供网络处理设备组内的独立处理设备使用的系统,用于管理所述组内的设备中发生的操作故障,包括:
独立的处理设备,包括:
知识库,包含标识用于响应于所述第一处理设备的操作故障而接管执行指定将由第一处理设备执行的任务的第二当前非操作的处理设备的转换信息;
接口处理器,用于响应于下列其中至少之一来维持和更新所述转换信息:(a)所述组内的另一处理设备的操作故障的检测、和(b)低于预定阈值的所述组内的另一处理设备的可用存储器的检测;
操作检测器,用于检测所述第一处理设备的操作故障;和
故障控制器,用于响应于所述第一处理设备的操作故障的检测来启动由所述第二处理设备执行指定将由所述第一处理设备执行的任务。
12.根据权利要求11所述的系统,其中:
所述转换信息包括用于响应于所述第一处理设备的操作故障而承担执行指定将由所述第一处理设备执行的任务的处理设备的优先表,并且
响应于来自所述组内的另一个处理设备的通信而动态地更新所述优先表。
13.一种供网络处理设备组内的独立处理设备使用的方法,用于管理所述组内的设备中发生的操作故障,包括下列动作:
维持标识用于响应于所述第一处理设备的操作故障而接管执行第一处理设备的任务的第二处理设备的转换信息,并且响应于出现在所述组内的另一处理设备中的转换信息方面的变化来更新所述转换信息;
检测所述第一处理设备的操作故障;以及
响应于所述第一处理设备的操作故障的检测,来启动由所述第二处理设备执行指定将由所述第一处理设备执行的任务。
14.一种供网络处理设备组内的独立处理设备使用的方法,用于管理所述组内的设备中发生的操作故障,包括下列动作:
存储标识用于响应于所述第一处理设备的操作故障而接管执行指定将由第一处理设备执行的任务的第二处理设备的转换信息;
响应于出现在所述组内的另一个处理设备中的转换信息方面的变化来维护和更新所述转换信息;
检测所述第一处理设备的操作故障;以及
响应于所述第一处理设备的操作故障,来启动由所述第二处理设备执行指定将由所述第一处理设备执行的任务。
15.一种供网络处理设备组内的独立处理设备使用的方法,用于管理所述组内的设备中发生的操作故障,包括下列动作:
维持标识用于响应于所述第一处理设备的操作故障而接管执行指定将由第一处理设备执行的任务的第二当前非操作处理设备的转换信息;
响应于下列其中至少之一来更新所述转换信息:(a)所述组内的另一处理设备的操作故障的检测、(b)低于预定阈值的所述组内的另一处理设备的可用存储器的检测;
检测所述第一处理设备的操作故障;以及
响应于所述第一处理设备的操作故障的检测,来启动由所述第二处理设备执行指定将由所述第一处理设备执行的任务。
CNA2004100883881A 2003-11-06 2004-11-08 处理设备管理系统 Pending CN1614936A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US51777603P 2003-11-06 2003-11-06
US60/517776 2003-11-06
US10/773,543 US7225356B2 (en) 2003-11-06 2004-02-06 System for managing operational failure occurrences in processing devices
US10/773543 2004-02-06

Publications (1)

Publication Number Publication Date
CN1614936A true CN1614936A (zh) 2005-05-11

Family

ID=33457719

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004100883881A Pending CN1614936A (zh) 2003-11-06 2004-11-08 处理设备管理系统

Country Status (4)

Country Link
US (1) US7225356B2 (zh)
CN (1) CN1614936A (zh)
DE (1) DE102004052270B4 (zh)
GB (1) GB2407887B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102123048A (zh) * 2011-02-14 2011-07-13 浪潮通信信息系统有限公司 电信设备容灾关系自动发现的处理方法
CN101273334B (zh) * 2005-09-30 2012-05-23 国际商业机器公司 向支持多逻辑分区的计算机中的逻辑分区指派处理器的方法和系统
WO2012114215A1 (en) * 2011-02-24 2012-08-30 International Business Machines Corporation Network event management
CN101542445B (zh) * 2006-12-05 2012-10-10 高通股份有限公司 零单点故障负载平衡器的设备及方法
CN1893370B (zh) * 2005-06-29 2013-01-30 国际商业机器公司 用于服务器群集恢复和维护的方法和系统
CN103746829A (zh) * 2013-12-20 2014-04-23 中国科学院计算技术研究所 一种基于集群的故障感知系统及其方法
WO2014114119A1 (en) * 2013-01-23 2014-07-31 Hangzhou H3C Technologies Co., Ltd. Redundant server operation by a software defined network controller
CN104469181A (zh) * 2014-12-19 2015-03-25 北京卓越信通电子股份有限公司 一种基于pis系统的音视频矩阵切换方法
CN104778821A (zh) * 2015-04-09 2015-07-15 银江股份有限公司 一种交通设备自动报警系统及方法
CN106789141A (zh) * 2015-11-24 2017-05-31 阿里巴巴集团控股有限公司 一种网关设备故障处理方法及装置

Families Citing this family (175)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7320083B2 (en) * 2003-04-23 2008-01-15 Dot Hill Systems Corporation Apparatus and method for storage controller to deterministically kill one of redundant servers integrated within the storage controller chassis
US7627780B2 (en) * 2003-04-23 2009-12-01 Dot Hill Systems Corporation Apparatus and method for deterministically performing active-active failover of redundant servers in a network storage appliance
US7565566B2 (en) * 2003-04-23 2009-07-21 Dot Hill Systems Corporation Network storage appliance with an integrated switch
US7401254B2 (en) * 2003-04-23 2008-07-15 Dot Hill Systems Corporation Apparatus and method for a server deterministically killing a redundant server integrated within the same network storage appliance chassis
US7246256B2 (en) * 2004-01-20 2007-07-17 International Business Machines Corporation Managing failover of J2EE compliant middleware in a high availability system
US7490323B2 (en) * 2004-02-13 2009-02-10 International Business Machines Corporation Method and system for monitoring distributed applications on-demand
US7900206B1 (en) * 2004-03-31 2011-03-01 Symantec Operating Corporation Information technology process workflow for data centers
JP2005301442A (ja) * 2004-04-07 2005-10-27 Hitachi Ltd ストレージ装置
US20060015773A1 (en) * 2004-07-16 2006-01-19 Dell Products L.P. System and method for failure recovery and load balancing in a cluster network
JP4339763B2 (ja) * 2004-09-07 2009-10-07 株式会社日立製作所 フェイルオーバ方法及び計算機システム
US7444538B2 (en) * 2004-09-21 2008-10-28 International Business Machines Corporation Fail-over cluster with load-balancing capability
US7451347B2 (en) * 2004-10-08 2008-11-11 Microsoft Corporation Failover scopes for nodes of a computer cluster
US7412291B2 (en) * 2005-01-12 2008-08-12 Honeywell International Inc. Ground-based software tool for controlling redundancy management switching operations
US7971095B2 (en) * 2005-02-16 2011-06-28 Honeywell International Inc. Fault recovery for real-time, multi-tasking computer system
WO2006108259A1 (en) * 2005-04-14 2006-10-19 Armor Technologies Corporation Secure client operating system for connection to an unsecure network
US7743372B2 (en) * 2005-06-28 2010-06-22 Internatinal Business Machines Corporation Dynamic cluster code updating in logical partitions
US7937616B2 (en) 2005-06-28 2011-05-03 International Business Machines Corporation Cluster availability management
US7774785B2 (en) * 2005-06-28 2010-08-10 International Business Machines Corporation Cluster code management
JP4831599B2 (ja) * 2005-06-28 2011-12-07 ルネサスエレクトロニクス株式会社 処理装置
US20070006270A1 (en) * 2005-06-29 2007-01-04 Nortel Networks Limited Timely recovery for media on demand streaming
US8326990B1 (en) 2005-07-15 2012-12-04 Symantec Operating Corporation Automated optimal workload balancing during failover in share-nothing database systems
JP2007041646A (ja) * 2005-07-29 2007-02-15 Fujitsu Ltd クライアント−サーバ型システム、並びに、その管理方法および管理プログラム
WO2007094808A1 (en) * 2005-08-05 2007-08-23 Honeywell International Inc. Monitoring system and methods for a distributed and recoverable digital control system
WO2007018652A1 (en) * 2005-08-05 2007-02-15 Honeywell International, Inc. Distributed and recoverable digital control system
US8260492B2 (en) * 2005-08-05 2012-09-04 Honeywell International Inc. Method and system for redundancy management of distributed and recoverable digital control system
WO2007035747A2 (en) * 2005-09-19 2007-03-29 Millennium It (Usa) Inc. Scalable fault tolerant system
US7493512B2 (en) * 2005-10-04 2009-02-17 First Data Corporation System and method for providing data services via a network
US8266272B2 (en) * 2005-11-07 2012-09-11 Hewlett-Packard Development Company, L.P. Methods for IT network representation and associated computer program products
US7702947B2 (en) * 2005-11-29 2010-04-20 Bea Systems, Inc. System and method for enabling site failover in an application server environment
US7549079B2 (en) * 2005-11-30 2009-06-16 Oracle International Corporation System and method of configuring a database system with replicated data and automatic failover and recovery
US7577870B2 (en) * 2005-12-21 2009-08-18 The Boeing Company Method and system for controlling command execution
JP4920391B2 (ja) * 2006-01-06 2012-04-18 株式会社日立製作所 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
US7697456B2 (en) * 2006-02-28 2010-04-13 Motorola, Inc. Method and apparatus for omniscient root node selection in an ad hoc network
US7876706B2 (en) * 2006-02-28 2011-01-25 Motorola, Inc. Method and apparatus for root node selection in an ad hoc network
US20070204021A1 (en) * 2006-02-28 2007-08-30 Ekl Randy L Method and apparatus for myopic root node selection in an ad hoc network
US8717911B2 (en) 2006-06-30 2014-05-06 Centurylink Intellectual Property Llc System and method for collecting network performance information
US8194643B2 (en) 2006-10-19 2012-06-05 Embarq Holdings Company, Llc System and method for monitoring the connection of an end-user to a remote network
US8000318B2 (en) 2006-06-30 2011-08-16 Embarq Holdings Company, Llc System and method for call routing based on transmission performance of a packet network
US8184549B2 (en) 2006-06-30 2012-05-22 Embarq Holdings Company, LLP System and method for selecting network egress
US8289965B2 (en) 2006-10-19 2012-10-16 Embarq Holdings Company, Llc System and method for establishing a communications session with an end-user based on the state of a network connection
US9094257B2 (en) 2006-06-30 2015-07-28 Centurylink Intellectual Property Llc System and method for selecting a content delivery network
US7948909B2 (en) 2006-06-30 2011-05-24 Embarq Holdings Company, Llc System and method for resetting counters counting network performance information at network communications devices on a packet network
US8488447B2 (en) 2006-06-30 2013-07-16 Centurylink Intellectual Property Llc System and method for adjusting code speed in a transmission path during call set-up due to reduced transmission performance
US7793147B2 (en) * 2006-07-18 2010-09-07 Honeywell International Inc. Methods and systems for providing reconfigurable and recoverable computing resources
US7669087B1 (en) * 2006-07-31 2010-02-23 Sun Microsystems, Inc. Method and apparatus for managing workload across multiple resources
US8537695B2 (en) 2006-08-22 2013-09-17 Centurylink Intellectual Property Llc System and method for establishing a call being received by a trunk on a packet network
US8743703B2 (en) 2006-08-22 2014-06-03 Centurylink Intellectual Property Llc System and method for tracking application resource usage
US7889660B2 (en) * 2006-08-22 2011-02-15 Embarq Holdings Company, Llc System and method for synchronizing counters on an asynchronous packet communications network
US8224255B2 (en) 2006-08-22 2012-07-17 Embarq Holdings Company, Llc System and method for managing radio frequency windows
US8199653B2 (en) 2006-08-22 2012-06-12 Embarq Holdings Company, Llc System and method for communicating network performance information over a packet network
US8307065B2 (en) 2006-08-22 2012-11-06 Centurylink Intellectual Property Llc System and method for remotely controlling network operators
US8238253B2 (en) 2006-08-22 2012-08-07 Embarq Holdings Company, Llc System and method for monitoring interlayer devices and optimizing network performance
US8228791B2 (en) 2006-08-22 2012-07-24 Embarq Holdings Company, Llc System and method for routing communications between packet networks based on intercarrier agreements
US8064391B2 (en) 2006-08-22 2011-11-22 Embarq Holdings Company, Llc System and method for monitoring and optimizing network performance to a wireless device
US8619600B2 (en) 2006-08-22 2013-12-31 Centurylink Intellectual Property Llc System and method for establishing calls over a call path having best path metrics
US8407765B2 (en) 2006-08-22 2013-03-26 Centurylink Intellectual Property Llc System and method for restricting access to network performance information tables
US8040811B2 (en) 2006-08-22 2011-10-18 Embarq Holdings Company, Llc System and method for collecting and managing network performance information
US8750158B2 (en) 2006-08-22 2014-06-10 Centurylink Intellectual Property Llc System and method for differentiated billing
US8189468B2 (en) 2006-10-25 2012-05-29 Embarq Holdings, Company, LLC System and method for regulating messages between networks
US7940735B2 (en) 2006-08-22 2011-05-10 Embarq Holdings Company, Llc System and method for selecting an access point
US8531954B2 (en) 2006-08-22 2013-09-10 Centurylink Intellectual Property Llc System and method for handling reservation requests with a connection admission control engine
US8125897B2 (en) 2006-08-22 2012-02-28 Embarq Holdings Company Lp System and method for monitoring and optimizing network performance with user datagram protocol network performance information packets
US8130793B2 (en) 2006-08-22 2012-03-06 Embarq Holdings Company, Llc System and method for enabling reciprocal billing for different types of communications over a packet network
US8098579B2 (en) 2006-08-22 2012-01-17 Embarq Holdings Company, LP System and method for adjusting the window size of a TCP packet through remote network elements
US8107366B2 (en) 2006-08-22 2012-01-31 Embarq Holdings Company, LP System and method for using centralized network performance tables to manage network communications
US8015294B2 (en) 2006-08-22 2011-09-06 Embarq Holdings Company, LP Pin-hole firewall for communicating data packets on a packet network
US7808918B2 (en) * 2006-08-22 2010-10-05 Embarq Holdings Company, Llc System and method for dynamically shaping network traffic
US8144586B2 (en) 2006-08-22 2012-03-27 Embarq Holdings Company, Llc System and method for controlling network bandwidth with a connection admission control engine
US8144587B2 (en) 2006-08-22 2012-03-27 Embarq Holdings Company, Llc System and method for load balancing network resources using a connection admission control engine
US8549405B2 (en) 2006-08-22 2013-10-01 Centurylink Intellectual Property Llc System and method for displaying a graphical representation of a network to identify nodes and node segments on the network that are not operating normally
US8576722B2 (en) 2006-08-22 2013-11-05 Centurylink Intellectual Property Llc System and method for modifying connectivity fault management packets
US8223654B2 (en) 2006-08-22 2012-07-17 Embarq Holdings Company, Llc Application-specific integrated circuit for monitoring and optimizing interlayer network performance
US8274905B2 (en) 2006-08-22 2012-09-25 Embarq Holdings Company, Llc System and method for displaying a graph representative of network performance over a time period
US8223655B2 (en) 2006-08-22 2012-07-17 Embarq Holdings Company, Llc System and method for provisioning resources of a packet network based on collected network performance information
US9479341B2 (en) 2006-08-22 2016-10-25 Centurylink Intellectual Property Llc System and method for initiating diagnostics on a packet network node
US7684332B2 (en) 2006-08-22 2010-03-23 Embarq Holdings Company, Llc System and method for adjusting the window size of a TCP packet through network elements
US7843831B2 (en) 2006-08-22 2010-11-30 Embarq Holdings Company Llc System and method for routing data on a packet network
US8194555B2 (en) 2006-08-22 2012-06-05 Embarq Holdings Company, Llc System and method for using distributed network performance information tables to manage network communications
TW200832128A (en) * 2007-01-26 2008-08-01 Rdc Semiconductor Co Ltd Redundant system
US20080209260A1 (en) * 2007-02-27 2008-08-28 Venkateswara Rao Vykunta Apparatus and method for synchronizing embedded databases of applications in a failover cluster
EP2136296A4 (en) * 2007-03-09 2010-09-22 Fujitsu Ltd INFORMATION PROCESSING APPARATUS, AND DYNAMIC DOMAIN RECONFIGURATION PROCESSING METHOD
US7734947B1 (en) * 2007-04-17 2010-06-08 Netapp, Inc. System and method for virtual interface failover within a cluster
US7958385B1 (en) 2007-04-30 2011-06-07 Netapp, Inc. System and method for verification and enforcement of virtual interface failover within a cluster
US8111692B2 (en) 2007-05-31 2012-02-07 Embarq Holdings Company Llc System and method for modifying network traffic
US8028088B2 (en) * 2007-09-12 2011-09-27 Netsocket, Inc. System and method for service assurance in IP networks
US8170987B2 (en) * 2007-10-31 2012-05-01 At&T Intellectual Property I, L.P. Methods, systems and computer program products for automatically identifying and backing up user device content
PL2212786T3 (pl) * 2007-11-22 2015-10-30 Ericsson Telefon Ab L M Sposób i urządzenie do przetwarzania zwinnego
US8887158B2 (en) * 2008-03-07 2014-11-11 Sap Se Dynamic cluster expansion through virtualization-based live cloning
US8068425B2 (en) 2008-04-09 2011-11-29 Embarq Holdings Company, Llc System and method for using network performance information to determine improved measures of path states
US8010325B2 (en) * 2008-04-25 2011-08-30 Microsoft Corporation Failure simulation and availability report on same
US8275907B2 (en) * 2008-06-26 2012-09-25 Microsoft Corporation Adding individual database failover/switchover to an existing storage component with limited impact
US8135981B1 (en) * 2008-06-30 2012-03-13 Symantec Corporation Method, apparatus and system to automate detection of anomalies for storage and replication within a high availability disaster recovery environment
US9632490B2 (en) 2008-10-27 2017-04-25 Lennox Industries Inc. System and method for zoning a distributed architecture heating, ventilation and air conditioning network
US8560125B2 (en) 2008-10-27 2013-10-15 Lennox Industries Communication protocol system and method for a distributed-architecture heating, ventilation and air conditioning network
US8437878B2 (en) 2008-10-27 2013-05-07 Lennox Industries Inc. Alarm and diagnostics system and method for a distributed architecture heating, ventilation and air conditioning network
US8798796B2 (en) 2008-10-27 2014-08-05 Lennox Industries Inc. General control techniques in a heating, ventilation and air conditioning network
US8352081B2 (en) 2008-10-27 2013-01-08 Lennox Industries Inc. Communication protocol system and method for a distributed-architecture heating, ventilation and air conditioning network
US8600558B2 (en) 2008-10-27 2013-12-03 Lennox Industries Inc. System recovery in a heating, ventilation and air conditioning network
US8725298B2 (en) 2008-10-27 2014-05-13 Lennox Industries, Inc. Alarm and diagnostics system and method for a distributed architecture heating, ventilation and conditioning network
US9377768B2 (en) 2008-10-27 2016-06-28 Lennox Industries Inc. Memory recovery scheme and data structure in a heating, ventilation and air conditioning network
US8802981B2 (en) 2008-10-27 2014-08-12 Lennox Industries Inc. Flush wall mount thermostat and in-set mounting plate for a heating, ventilation and air conditioning system
US9152155B2 (en) 2008-10-27 2015-10-06 Lennox Industries Inc. Device abstraction system and method for a distributed-architecture heating, ventilation and air conditioning system
US8352080B2 (en) 2008-10-27 2013-01-08 Lennox Industries Inc. Communication protocol system and method for a distributed-architecture heating, ventilation and air conditioning network
US8655490B2 (en) 2008-10-27 2014-02-18 Lennox Industries, Inc. System and method of use for a user interface dashboard of a heating, ventilation and air conditioning network
US8463442B2 (en) 2008-10-27 2013-06-11 Lennox Industries, Inc. Alarm and diagnostics system and method for a distributed architecture heating, ventilation and air conditioning network
US8774210B2 (en) 2008-10-27 2014-07-08 Lennox Industries, Inc. Communication protocol system and method for a distributed-architecture heating, ventilation and air conditioning network
US8452906B2 (en) 2008-10-27 2013-05-28 Lennox Industries, Inc. Communication protocol system and method for a distributed-architecture heating, ventilation and air conditioning network
US8615326B2 (en) 2008-10-27 2013-12-24 Lennox Industries Inc. System and method of use for a user interface dashboard of a heating, ventilation and air conditioning network
US8543243B2 (en) 2008-10-27 2013-09-24 Lennox Industries, Inc. System and method of use for a user interface dashboard of a heating, ventilation and air conditioning network
US8744629B2 (en) 2008-10-27 2014-06-03 Lennox Industries Inc. System and method of use for a user interface dashboard of a heating, ventilation and air conditioning network
US8600559B2 (en) 2008-10-27 2013-12-03 Lennox Industries Inc. Method of controlling equipment in a heating, ventilation and air conditioning network
US9261888B2 (en) 2008-10-27 2016-02-16 Lennox Industries Inc. System and method of use for a user interface dashboard of a heating, ventilation and air conditioning network
US8655491B2 (en) 2008-10-27 2014-02-18 Lennox Industries Inc. Alarm and diagnostics system and method for a distributed architecture heating, ventilation and air conditioning network
US8661165B2 (en) 2008-10-27 2014-02-25 Lennox Industries, Inc. Device abstraction system and method for a distributed architecture heating, ventilation and air conditioning system
US8855825B2 (en) 2008-10-27 2014-10-07 Lennox Industries Inc. Device abstraction system and method for a distributed-architecture heating, ventilation and air conditioning system
US8433446B2 (en) 2008-10-27 2013-04-30 Lennox Industries, Inc. Alarm and diagnostics system and method for a distributed-architecture heating, ventilation and air conditioning network
US8762666B2 (en) 2008-10-27 2014-06-24 Lennox Industries, Inc. Backup and restoration of operation control data in a heating, ventilation and air conditioning network
US8994539B2 (en) 2008-10-27 2015-03-31 Lennox Industries, Inc. Alarm and diagnostics system and method for a distributed-architecture heating, ventilation and air conditioning network
US9432208B2 (en) 2008-10-27 2016-08-30 Lennox Industries Inc. Device abstraction system and method for a distributed architecture heating, ventilation and air conditioning system
US8295981B2 (en) 2008-10-27 2012-10-23 Lennox Industries Inc. Device commissioning in a heating, ventilation and air conditioning network
US8437877B2 (en) 2008-10-27 2013-05-07 Lennox Industries Inc. System recovery in a heating, ventilation and air conditioning network
US9651925B2 (en) 2008-10-27 2017-05-16 Lennox Industries Inc. System and method for zoning a distributed-architecture heating, ventilation and air conditioning network
US8977794B2 (en) 2008-10-27 2015-03-10 Lennox Industries, Inc. Communication protocol system and method for a distributed-architecture heating, ventilation and air conditioning network
US8255086B2 (en) 2008-10-27 2012-08-28 Lennox Industries Inc. System recovery in a heating, ventilation and air conditioning network
US8442693B2 (en) 2008-10-27 2013-05-14 Lennox Industries, Inc. System and method of use for a user interface dashboard of a heating, ventilation and air conditioning network
US9268345B2 (en) 2008-10-27 2016-02-23 Lennox Industries Inc. System and method of use for a user interface dashboard of a heating, ventilation and air conditioning network
US8463443B2 (en) 2008-10-27 2013-06-11 Lennox Industries, Inc. Memory recovery scheme and data structure in a heating, ventilation and air conditioning network
US8694164B2 (en) 2008-10-27 2014-04-08 Lennox Industries, Inc. Interactive user guidance interface for a heating, ventilation and air conditioning system
US8874815B2 (en) 2008-10-27 2014-10-28 Lennox Industries, Inc. Communication protocol system and method for a distributed architecture heating, ventilation and air conditioning network
US8892797B2 (en) 2008-10-27 2014-11-18 Lennox Industries Inc. Communication protocol system and method for a distributed-architecture heating, ventilation and air conditioning network
US8564400B2 (en) 2008-10-27 2013-10-22 Lennox Industries, Inc. Communication protocol system and method for a distributed-architecture heating, ventilation and air conditioning network
US9678486B2 (en) 2008-10-27 2017-06-13 Lennox Industries Inc. Device abstraction system and method for a distributed-architecture heating, ventilation and air conditioning system
US8788100B2 (en) 2008-10-27 2014-07-22 Lennox Industries Inc. System and method for zoning a distributed-architecture heating, ventilation and air conditioning network
US9325517B2 (en) 2008-10-27 2016-04-26 Lennox Industries Inc. Device abstraction system and method for a distributed-architecture heating, ventilation and air conditioning system
US8239066B2 (en) 2008-10-27 2012-08-07 Lennox Industries Inc. System and method of use for a user interface dashboard of a heating, ventilation and air conditioning network
US8452456B2 (en) 2008-10-27 2013-05-28 Lennox Industries Inc. System and method of use for a user interface dashboard of a heating, ventilation and air conditioning network
US8548630B2 (en) 2008-10-27 2013-10-01 Lennox Industries, Inc. Alarm and diagnostics system and method for a distributed-architecture heating, ventilation and air conditioning network
JP4789021B2 (ja) * 2009-02-06 2011-10-05 日本電気株式会社 データ処理装置及びデータ処理方法
US8327186B2 (en) * 2009-03-10 2012-12-04 Netapp, Inc. Takeover of a failed node of a cluster storage system on a per aggregate basis
US8145838B1 (en) 2009-03-10 2012-03-27 Netapp, Inc. Processing and distributing write logs of nodes of a cluster storage system
US8069366B1 (en) 2009-04-29 2011-11-29 Netapp, Inc. Global write-log device for managing write logs of nodes of a cluster storage system
US8996909B2 (en) * 2009-10-08 2015-03-31 Microsoft Corporation Modeling distribution and failover database connectivity behavior
USD648641S1 (en) 2009-10-21 2011-11-15 Lennox Industries Inc. Thin cover plate for an electronic system controller
USD648642S1 (en) 2009-10-21 2011-11-15 Lennox Industries Inc. Thin cover plate for an electronic system controller
US20120053738A1 (en) * 2009-11-24 2012-03-01 Friedrich Air Conditioning Co., A Division Of U.S. Natural Resources, Inc. Remote control system for a room air conditioner and/or heat pump
US8260444B2 (en) 2010-02-17 2012-09-04 Lennox Industries Inc. Auxiliary controller of a HVAC system
US8281071B1 (en) * 2010-02-26 2012-10-02 Symantec Corporation Systems and methods for managing cluster node connectivity information
US9009196B2 (en) 2011-03-16 2015-04-14 Microsoft Technology Licensing, Llc Discovery and client routing to database nodes
US8955097B2 (en) 2011-12-13 2015-02-10 Mcafee, Inc. Timing management in a large firewall cluster
US9400761B2 (en) * 2012-01-19 2016-07-26 Hitachi, Ltd. Management method for computer system, computer system, and non-transitory computer-readable storage medium
US9323628B2 (en) * 2012-10-09 2016-04-26 Dh2I Company Instance level server application monitoring, load balancing, and resource allocation
US20140181085A1 (en) 2012-12-21 2014-06-26 Commvault Systems, Inc. Data storage system for analysis of data across heterogeneous information management systems
US9021452B2 (en) 2012-12-27 2015-04-28 Commvault Systems, Inc. Automatic identification of storage requirements, such as for use in selling data storage management solutions
US9495257B2 (en) * 2013-02-27 2016-11-15 Oracle International Corporation Networking support for zone clusters based on virtualization of servers
US8621062B1 (en) * 2013-03-15 2013-12-31 Opscode, Inc. Push signaling to run jobs on available servers
KR102170720B1 (ko) * 2013-10-30 2020-10-27 삼성에스디에스 주식회사 클러스터 노드 상태 변경 장치 및 방법과 그 프로그램을 기록한 기록 매체
EP2892013A1 (en) * 2014-01-03 2015-07-08 Agco Corporation Machine data management using collective machine data
US9658869B2 (en) * 2014-01-06 2017-05-23 International Business Machines Corporation Autonomously managed virtual machine anti-affinity rules in cloud computing environments
US10949382B2 (en) 2014-01-15 2021-03-16 Commvault Systems, Inc. User-centric interfaces for information management systems
US10169121B2 (en) 2014-02-27 2019-01-01 Commvault Systems, Inc. Work flow management for an information management system
US9760446B2 (en) 2014-06-11 2017-09-12 Micron Technology, Inc. Conveying value of implementing an integrated data management and protection system
US10235250B1 (en) * 2014-06-27 2019-03-19 EMC IP Holding Company LLC Identifying preferred nodes for backing up availability groups
JP6519208B2 (ja) * 2015-02-02 2019-05-29 富士通株式会社 ストレージシステム
US10956299B2 (en) 2015-02-27 2021-03-23 Commvault Systems, Inc. Diagnosing errors in data storage and archiving in a cloud or networking environment
US10324914B2 (en) 2015-05-20 2019-06-18 Commvalut Systems, Inc. Handling user queries against production and archive storage systems, such as for enterprise customers having large and/or numerous files
US10250444B2 (en) * 2015-07-02 2019-04-02 Perspecta Labs Inc. Hybrid SDN/legacy policy enforcement
CN105338075A (zh) * 2015-10-21 2016-02-17 浪潮(北京)电子信息产业有限公司 一种集群中各节点间数据共享方法和系统
JP2018116477A (ja) * 2017-01-18 2018-07-26 富士通株式会社 情報処理装置および情報処理システム
US10949308B2 (en) 2017-03-15 2021-03-16 Commvault Systems, Inc. Application aware backup of virtual machines
US11032350B2 (en) 2017-03-15 2021-06-08 Commvault Systems, Inc. Remote commands framework to control clients
US11010261B2 (en) 2017-03-31 2021-05-18 Commvault Systems, Inc. Dynamically allocating streams during restoration of data
US20200104222A1 (en) * 2018-09-28 2020-04-02 Hewlett Packard Enterprise Development Lp Systems and methods for managing server cluster environments and providing failure recovery therein
US10924391B2 (en) * 2019-04-03 2021-02-16 Dell Products L.P. Systems and methods for automatic traffic recovery after VRRP VMAC installation failures in a LAG fabric
US11057478B2 (en) * 2019-05-23 2021-07-06 Fortinet, Inc. Hybrid cluster architecture for reverse proxies
JP7380403B2 (ja) * 2020-04-27 2023-11-15 富士通株式会社 情報処理装置及び連携方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4228496A (en) * 1976-09-07 1980-10-14 Tandem Computers Incorporated Multiprocessor system
JPH01256843A (ja) * 1988-03-25 1989-10-13 Ncr Corp リンク・コントロール・システム
US5295258A (en) * 1989-12-22 1994-03-15 Tandem Computers Incorporated Fault-tolerant computer system with online recovery and reintegration of redundant components
US5914953A (en) * 1992-12-17 1999-06-22 Tandem Computers, Inc. Network message routing using routing table information and supplemental enable information for deadlock prevention
US5696895A (en) * 1995-05-19 1997-12-09 Compaq Computer Corporation Fault tolerant multiple network servers
WO1997049039A1 (en) 1996-06-21 1997-12-24 Bell Communications Research, Inc. Apparatus and methods for highly available directory services in the distributed computing environment
US6189111B1 (en) * 1997-03-28 2001-02-13 Tandem Computers Incorporated Resource harvesting in scalable, fault tolerant, single system image clusters
US5987621A (en) * 1997-04-25 1999-11-16 Emc Corporation Hardware and software failover services for a file server
US6094416A (en) * 1997-05-09 2000-07-25 I/O Control Corporation Multi-tier architecture for control network
US6363497B1 (en) * 1997-05-13 2002-03-26 Micron Technology, Inc. System for clustering software applications
US6067545A (en) * 1997-08-01 2000-05-23 Hewlett-Packard Company Resource rebalancing in networked computer systems
US5996086A (en) * 1997-10-14 1999-11-30 Lsi Logic Corporation Context-based failover architecture for redundant servers
US6192483B1 (en) * 1997-10-21 2001-02-20 Sun Microsystems, Inc. Data integrity and availability in a distributed computer system
US6145089A (en) * 1997-11-10 2000-11-07 Legato Systems, Inc. Server fail-over system
US6078990A (en) * 1998-02-06 2000-06-20 Ncr Corporation Volume set configuration using a single operational view
US6009455A (en) * 1998-04-20 1999-12-28 Doyle; John F. Distributed computation utilizing idle networked computers
US5964886A (en) * 1998-05-12 1999-10-12 Sun Microsystems, Inc. Highly available cluster virtual disk system
US6421787B1 (en) * 1998-05-12 2002-07-16 Sun Microsystems, Inc. Highly available cluster message passing facility
US6532494B1 (en) * 1999-05-28 2003-03-11 Oracle International Corporation Closed-loop node membership monitor for network clusters
US6609214B1 (en) * 1999-08-23 2003-08-19 International Business Machines Corporation Method, system and program products for copying coupling facility structures
US6658589B1 (en) * 1999-12-20 2003-12-02 Emc Corporation System and method for backup a parallel server data storage system
US6735205B1 (en) * 2000-01-10 2004-05-11 Sun Microsystems, Inc. Method and apparatus for fast packet forwarding in cluster networking
US6636982B1 (en) * 2000-03-03 2003-10-21 International Business Machines Corporation Apparatus and method for detecting the reset of a node in a cluster computer system
US6990606B2 (en) * 2000-07-28 2006-01-24 International Business Machines Corporation Cascading failover of a data management application for shared disk file systems in loosely coupled node clusters
US6487643B1 (en) * 2000-09-29 2002-11-26 Intel Corporation Method and apparatus for preventing starvation in a multi-node architecture
US6785678B2 (en) * 2000-12-21 2004-08-31 Emc Corporation Method of improving the availability of a computer clustering system through the use of a network medium link state function
US6944785B2 (en) * 2001-07-23 2005-09-13 Network Appliance, Inc. High-availability cluster virtual server system
US6922791B2 (en) * 2001-08-09 2005-07-26 Dell Products L.P. Failover system and method for cluster environment
US6993566B2 (en) * 2001-09-13 2006-01-31 International Business Machines Corporation Entity self-clustering and host-entity communication such as via shared memory
US7058846B1 (en) * 2002-10-17 2006-06-06 Veritas Operating Corporation Cluster failover for storage management services

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1893370B (zh) * 2005-06-29 2013-01-30 国际商业机器公司 用于服务器群集恢复和维护的方法和系统
CN101273334B (zh) * 2005-09-30 2012-05-23 国际商业机器公司 向支持多逻辑分区的计算机中的逻辑分区指派处理器的方法和系统
CN101542445B (zh) * 2006-12-05 2012-10-10 高通股份有限公司 零单点故障负载平衡器的设备及方法
CN102123048A (zh) * 2011-02-14 2011-07-13 浪潮通信信息系统有限公司 电信设备容灾关系自动发现的处理方法
US9191296B2 (en) 2011-02-24 2015-11-17 International Business Machines Corporation Network event management
WO2012114215A1 (en) * 2011-02-24 2012-08-30 International Business Machines Corporation Network event management
US9239988B2 (en) 2011-02-24 2016-01-19 International Business Machines Corporation Network event management
WO2014114119A1 (en) * 2013-01-23 2014-07-31 Hangzhou H3C Technologies Co., Ltd. Redundant server operation by a software defined network controller
CN103746829A (zh) * 2013-12-20 2014-04-23 中国科学院计算技术研究所 一种基于集群的故障感知系统及其方法
CN104469181A (zh) * 2014-12-19 2015-03-25 北京卓越信通电子股份有限公司 一种基于pis系统的音视频矩阵切换方法
CN104469181B (zh) * 2014-12-19 2017-05-10 北京卓越信通电子股份有限公司 一种基于pis系统的音视频矩阵切换方法
CN104778821A (zh) * 2015-04-09 2015-07-15 银江股份有限公司 一种交通设备自动报警系统及方法
CN106789141A (zh) * 2015-11-24 2017-05-31 阿里巴巴集团控股有限公司 一种网关设备故障处理方法及装置
US10831622B2 (en) 2015-11-24 2020-11-10 Alibaba Group Holding Limited Method and apparatus for processing gateway device fault
CN106789141B (zh) * 2015-11-24 2020-12-11 阿里巴巴集团控股有限公司 一种网关设备故障处理方法及装置

Also Published As

Publication number Publication date
DE102004052270B4 (de) 2017-08-10
DE102004052270A1 (de) 2005-06-02
GB2407887A (en) 2005-05-11
GB0422448D0 (en) 2004-11-10
GB2407887B (en) 2006-04-19
US20050138517A1 (en) 2005-06-23
US7225356B2 (en) 2007-05-29

Similar Documents

Publication Publication Date Title
CN1614936A (zh) 处理设备管理系统
CN100544342C (zh) 存储系统
US7389367B2 (en) Method of managing I/O interface modules in a computer system
CN108183961A (zh) 一种基于Redis的分布式缓存方法
US20070244999A1 (en) Method, apparatus, and computer product for updating software
US20030069953A1 (en) Modular server architecture with high-availability management capability
US10868581B2 (en) Data center management using device identification over power-line
US20020143942A1 (en) Storage area network resource management
US7219254B2 (en) Method and apparatus for high availability distributed processing across independent networked computer fault groups
CN112073265B (zh) 一种基于分布式边缘计算的物联网监控方法和系统
CN106980529B (zh) 基板管理控制器资源管理的电脑系统
WO2004036344A2 (en) System and method for the optimization of database
WO2019210580A1 (zh) 访问请求处理方法、装置、计算机设备和存储介质
US7134046B2 (en) Method and apparatus for high availability distributed processing across independent networked computer fault groups
US9223834B2 (en) Distributed multi-system management
JPWO2003075161A1 (ja) ストレージ仮想化システムの変換管理装置およびストレージ仮想化システムの変換管理方法
CA3138764A1 (en) Data processing method, device, computer equipment and storage medium
US8510402B2 (en) Management of redundant addresses in standby systems
US10897402B2 (en) Statistics increment for multiple publishers
JP7206981B2 (ja) クラスタシステム、その制御方法、サーバ、及びプログラム
US20040039816A1 (en) Monitoring method of the remotely accessible resources to provide the persistent and consistent resource states
US20050182763A1 (en) Apparatus and method for on-line upgrade using proxy objects in server nodes
JP4506612B2 (ja) 無停電電源装置管理システム
KR20160101705A (ko) 공정 관리 장치, 이와 연동하는 데이터 서버를 포함하는 반도체 공정 관리 시스템 및 이를 이용한 반도체 공정 관리 방법
US20050198022A1 (en) Apparatus and method using proxy objects for application resource management in a communication network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication