CN1043022A - 检查双处理装置中校验程序的方法 - Google Patents

检查双处理装置中校验程序的方法 Download PDF

Info

Publication number
CN1043022A
CN1043022A CN89109186.6A CN89109186A CN1043022A CN 1043022 A CN1043022 A CN 1043022A CN 89109186 A CN89109186 A CN 89109186A CN 1043022 A CN1043022 A CN 1043022A
Authority
CN
China
Prior art keywords
processor
auxilliary
checking routine
mentioned
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN89109186.6A
Other languages
English (en)
Other versions
CN1018390B (zh
Inventor
林孝雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN1043022A publication Critical patent/CN1043022A/zh
Publication of CN1018390B publication Critical patent/CN1018390B/zh
Expired legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2215Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test error correction or detection circuits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods

Abstract

本发明是检查双处理器装置中校验程序的方法。该双处理器包括通过差错确认成和处理器之间的通信线相互联系并组成主系统和辅系统的两个处理器;经总成分别与两个处理器连接的两个主存储器;接到将两个处理器与两个主存储器连接起来的总成上的排列次序;以及用作控制在总线上总成占领权争执的总成制优器。根据本方法,可在主处理器的控制下,按照辅处理器所执行的校验程序的执行地址检查校验程序的正常性。

Description

本发明涉及一种检查双处理装置中校验程序的方法,特别涉及检查与主系统执行程序的同时由辅系统执行的校验程序的方法。
在通常的双处理装置中,其中一个处理器作为主处理器,另一个作为辅处理器。主处理器从它的主存储器中读出指令和数据执行在线操作,而辅处理器执行校验程序以检查它的正常性。
在通常的双处理装置中,在线程序在主处理器的存储器中运行,主系统和辅系统的存储器同时更新各自的内容。校验程序用来检测与主处理器执行在线程序同时进行的辅处理器执行的错误,以防止辅系统出错。
在通常的双处理装置的检查期间,当辅系统中检查出错误时,给主处理器发出信号,在该装置中,当校验程序正常运行时,不会发生问题,但是,当辅校验程序由于硬件或软件的差错而出错或超越正常界限时,则辅处理器的在线存储域可以被中断。在这种情况下,由于校验程序本身出错,而使辅处理器无法为主处理器确认差错,因而损害和降低了系统的可靠性。
本发明的主要目的在于提供一种检查双处理装置中校验程序的方法,从而改善系统的可靠性。
为了达到本发明的上述目的,本发明提供了一种检查在双处理装置中的校验程序的方法。该双处理装置包括:通过差错确认线和处理器之间的通信线相互联系并组成主系统和辅系统的两个处理器;经总线分别与两个处理器相连接的主存贮器;连接处理器到主存贮器的总线的连接顺序;以及用来控制多条总线中的一条总线的占领权冲突的判优电路,它包括在主处理器的控制下检查来自一条被执行的校验程序的执行地址的校验程序的正确性。
图1是本发明的一个实施例的双处理装置的方框图;
图2A和2B分别为示于图1中的主处理器存储器和辅处理器存储器的数据格式;
图3为示于图1中的双处理装置的详细方框图;
图4是用来说明使主处理器监视辅处理器差错检测程序运行状态的程序流程图。
本发明的最佳实施例参见附图详细描述如下。
图1表示本发明实施例的双处理装置的构造。
图1中,标号1-1和1-2表示每一个含有CPU(中央处理单元)的主处理器和辅处理器或0系统和1系统;2-1和2-2分别表示主处理器存储器和辅处理器存储器。标号3表示用来更新该存储器内容的排列次序。标号4-1和4-2分别表示主处理器1-1和辅处理器1-2中所含有的主处理器和辅处理器总线判优器。
标号5表示差错确认线;标号6表示处理器之间的通信线,用于处理器1-1和辅处理器1-2之间直接交换数据。
图1所示的主处理器存储器2-1和辅处理器存储器2-2的内容分别示于图2A和2B中。每个存储器设有诊断程序域A和在线域B。在本实施例中,从地址0到地址1000的这一范围用作诊断程序域A,诊断程序存储在其中。从地址1001至地址100000这一范围用作在线域B,在线程序存储在其中。在同步运行期间,存储器2-1被由执行主处理器的在线程序产生的存储器写请求进行更新。同样,与存储器2-1中的地址相一致的那些地址上的数据,在辅处理器存储器2-2中也得到了更新。然而,该程序不更新在该诊断程序域A中存储器2-2的0至1000地址的数据。这就是说,在线程序不应对存储器2-2的诊断程序域进行存取。执行存储在辅处理器存储器2-2中的地址由0至1000的域B内的辅诊断程序,可检查辅处理器硬件的正常性。当检出差错时,辅处理器差错通过差错确认线5作为一个中断送到主处理器1-1进行确定。根据收到的中断信号、主系统检测辅系统的差错,并采用改变运行的办法从同步方式到异步方式与辅系统脱接。
在同步方式,当主系统产生存储器写请求时,写地址信号和数据信号被写入安排在配对的处理器1-1和1-2之间的排列次序3之中。辅处理器存储器2-2由辅处理器总线判优器4-2用辅处理器存储器总线的空域按照排列次序3中的内容进行更新。
在异步方式,不执行从主系统到辅处理器存储器2-2的存储器写操作。同步/异步方式是由主处理器1-1中的操作方式寄存器R1-1(一位)设定的。主/辅方式是由主系统中的主/辅设定寄存器R2-1设定的。当在寄存器R2-1被置为逻辑“0”时,0系统处理器是主处理器,1系统处理器是辅处理器。当主系统的主/辅设定寄存器R2-1被置为逻辑“1”时,0系统处理器是辅处理器,而1系统处理器为主处理器。在此情况下,寄存器R2-2存储着和寄存器R2-1相反的内容。
操作方式寄存器R1-1和R1-2以及主/辅设定寄存器R2-1和R2-2可按照程序进行设定。
图3示出了图1所示的双处理装置的详细结构,特别是排列次序3的详细构成。图3中,标号31-1和31-2表示输入选择器;32-1和32-2表示输出选择器;标号33表示地址排列次序;标号34表示数据排列次序;标号35表示排列次序控制器。
参考符号S1表示停止请求线,供发出中止主处理器1-1和1-2之间的相对立的处理器的请求。参考符号S2表示信号线,用以读出主处理器1-1和辅处理器1-2之间的相对立的处理器中止地址信号。这些信号线S1和S2代表图1中处理器之间的通信线。
参考符号B1-1和B1-2表示控制总线,用来将主处理器1-1和辅处理器1-2连接到排列次序3上,并传递它们之间的控制数据。参考符号D1-1和D1-2表示数据总线,用以将主处理器1-1和辅处理器1-2连接到排列次序3上,并传递它们之间的数据信号。参考符号A1-1和A1-2表示地址总线,用以将主处理器1-1和辅处理器1-2连接到排列次序3上,并在它们之间传递地址信号。
参考符号S5-1和S5-2表示总线使能信号线,用以将排列次序3中的排列次序控制器35连接到主处理器1-1和辅处理器1-2上,并发送总线使能信号,用来指定来自主处理器1-1或辅处理器1-2的总线占领权。参考符号Sb-1和Sb-2表示总线占领信号线,用以将排列次序控制器35连接到主处理器1-1和辅处理器1-2上,并将总线占领信号发送给主处理器1-1或辅处理器1-2。
例如,当0系统是主系统时,排列次序3的输入选择器31-1和31-2,在排列次序控制器35的控制下,通过地址总线A1-1和数据总线D1-1写入在地址排列次序33和数据排列次序34中的写存取所要求的地址和数据信号。在排列次序控制器35的控制下,在地址排列次序33和数据排列次序34中所写入的地址和数据信号通过输出选择器32-1被送到辅地址总线A1-2和辅数据总线D1-2,并被写入辅处理器存储器2-2中。此时,总线占领信号从排列次序控制器35被发送到辅处理器1-2的CPU,以防止同辅系统所执行的诊断程序的存储器的存取发生冲突。总线使能信号从处理器1-2的CPU向总线使能线S5-2发送。当收到这个总线使能信号时,在地址排列次序33和数据排列次序34中所写入的地址和数据信号被写入辅处理器存储器2-2中。应当注意,操作方式寄存器R1-1和R1-2以及主/辅设定寄存器R2-1和R2-2,通过排列次序控制器35,控制排列次序3的输入选择器31-1和31-2以及输出选择器32-1和32-2。
在以上的构造中,处理器1-1是主处理器,处理器1-2是辅处理器。
主处理器1-1从存储器2-1读出指令和数据,并执行在线程序。在写方式,存储器2-1和2-2的内容都被更新。此时,写地址和数据信号同时被存入排列次序3中。
排列次序3自动输出地址和数据信号。在排列次序3借助总线判优器4-2得到与辅处理器存储器2-2通信权后,存储器2-2的写存取就被执行。
辅处理器1-2在与存储器2-2的在线域不重叠的域中存储差错检测程序。辅处理器1-2与主处理器1-1运行的同时也独立地执行差错检测程序。当检测到辅系统的差错时,差错检测程序通过差错确认线5向主处理器1-1发送中断信号。
执行以下的程序会使主系统监视辅差错检测程序的运行状况。此程序的流程图示于图4。
不管辅差错检测程序是否正在运行,主处理器1-1按照图4中100的步骤进行检查,这种检查操作每分钟启动一次。如果此检查操作是成功的,则流程前进到101步骤,使辅系统停止。主处理器1-1通过线6向辅处理器102发送指令。如果程序停在100步骤中,则流程就前进到107步骤(后面描述),建立异步方式。
不管辅系统是否成功地停止运行,主处理器1-1检查102步骤。若辅系统成功地停止运行。流程前进到103步骤。辅停止地址X被发送到主系统。按照差错检测程序的存储器指定的信息,主处理器1-1在104步骤中检查停止地址X是否处于予定的区间内(例如,本实施例中为0至1000)。若在104步骤中为“是”,则主处理执行在线程序,并且流程前进到105步骤,继续差错检测程序。
但是,如果辅系统的停止在100,102和104步骤中失败,则流程前进到107步骤,将运行方式寄存器R1-1设定在异步方式。然后,流程前进到105步骤,启动对辅系统进行诊断的程序。应注意,如果由图4中的辅系统所确认的不是上面所述差错中的差错,则开始执行来自连接处 的处理过程。
根据上面所述的本发明,能确保辅差错检测功能,因而提供了一种改善系统可靠性的双处理装置。

Claims (4)

1、一种检查双处理装置中的校验程序的方法,该双处理装置包括通过差错确认线和处理器之间的通信线相互联系并组成主系统和辅系统的两个处理器;经总线分别与上述两个处理器连接的两个主存储器;接到将上述两个处理器和上述两个主存储器连接起来的总线上的排列次序;以及用作控制在总线上的总线占领权争执并包括在上述主处理器控制下由上述辅处理器执行的检验程序的执行地址对校验程序的正常性进行检查的总线判优器。
2、按照权利要求1的方法,其中,上述主处理器在上述辅处理器的主存储器中予设一个校验程序的区间,定期检查校验程序的执行地址,并且当校验程序的执行地址落在予定的区间之处时决定校验程序的超越正常范围。
3、按照权利要求2的方法,其中,当上述主处理器确定由辅系统所执行的校验程序正在超越正常范围时,上述主处理器被迫与辅系统脱接。
4、按照权利要求1的方法,其中,检查正常性包括检查由上述辅处理器所执行的校验程序是否执行。
CN89109186.6A 1988-11-14 1989-11-14 检查双处理装置中校验程序的方法 Expired CN1018390B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP285791/88 1988-11-14
JP63285791A JPH0814797B2 (ja) 1988-11-14 1988-11-14 二重化処理装置におけるチェック方法

Publications (2)

Publication Number Publication Date
CN1043022A true CN1043022A (zh) 1990-06-13
CN1018390B CN1018390B (zh) 1992-09-23

Family

ID=17696119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN89109186.6A Expired CN1018390B (zh) 1988-11-14 1989-11-14 检查双处理装置中校验程序的方法

Country Status (4)

Country Link
US (1) US5140593A (zh)
JP (1) JPH0814797B2 (zh)
CN (1) CN1018390B (zh)
CA (1) CA2002966C (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0528538B1 (en) * 1991-07-18 1998-12-23 Tandem Computers Incorporated Mirrored memory multi processor system
JP3158517B2 (ja) * 1991-08-26 2001-04-23 富士通株式会社 障害検出方式
CA2107755C (en) * 1992-11-16 1998-07-07 Paul Elliott Janssen Telecommunication system with improved reconfiguration flexibility
US5414937A (en) * 1994-03-14 1995-05-16 Elco Industries, Inc. Headlamp indicating device with highlighted level bubble
AU3216100A (en) * 1999-02-16 2000-09-04 Eci Telecom Ltd. System for hot standby of a telephone switching matrix
KR20020059481A (ko) * 2001-01-06 2002-07-13 윤종용 대형 시스템에서의 이중화 장치 및 방법
US7107490B2 (en) * 2002-01-03 2006-09-12 International Business Machines Corporation IML-stream generated error insertion / FRU isolation
US7587635B2 (en) * 2004-10-04 2009-09-08 Cisco Technology, Inc. Method of debugging “active” unit using “non-intrusive source-level debugger” on “standby” unit of high availability system
US7519852B2 (en) * 2005-05-12 2009-04-14 International Business Machines Corporation Apparatus, system, and method for redirecting an instruction pointer to recovery software instructions

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5672359A (en) * 1979-11-17 1981-06-16 Fujitsu Ltd Supervising system for spare unit
JPS5786972A (en) * 1980-11-19 1982-05-31 Yokogawa Hokushin Electric Corp Doubled computer system
JPS61294555A (ja) * 1985-06-24 1986-12-25 Hitachi Ltd プログラム暴走検出方法
JPS6272248A (ja) * 1985-09-25 1987-04-02 Hitachi Ltd デ−タ伝送システムの現用予備切替方法
US4684885A (en) * 1985-11-04 1987-08-04 Get Communication Systems Corporation Arrangement for on-line diagnostic testing of an off-line standby processor in a duplicated processor configuration
US4736339A (en) * 1985-12-16 1988-04-05 Gte Communication Systems Corporation Circuit for simplex I/O terminal control by duplex processors
US4755995A (en) * 1985-12-20 1988-07-05 American Telephone And Telegraph Company, At&T Bell Laboratories Program update in duplicated switching systems
US4751702A (en) * 1986-02-10 1988-06-14 International Business Machines Corporation Improving availability of a restartable staged storage data base system that uses logging facilities
JP2886856B2 (ja) * 1986-04-09 1999-04-26 株式会社日立製作所 二重化バス接続方式
JPS6349948A (ja) * 1986-08-20 1988-03-02 Canon Inc マルチプロセツサ回路
IT1213344B (it) * 1986-09-17 1989-12-20 Honoywell Information Systems Architettura di calcolatore a tolleranza di guasto.
DE3700986C2 (de) * 1987-01-15 1995-04-20 Bosch Gmbh Robert Einrichtung zur Überwachung eines Rechnersystems mit zwei Prozessoren in einem Kraftfahrzeug
US4894828A (en) * 1987-12-22 1990-01-16 Amdahl Corporation Multiple sup swap mechanism

Also Published As

Publication number Publication date
CA2002966C (en) 1994-05-24
JPH0814797B2 (ja) 1996-02-14
CA2002966A1 (en) 1990-05-14
US5140593A (en) 1992-08-18
JPH02132528A (ja) 1990-05-22
CN1018390B (zh) 1992-09-23

Similar Documents

Publication Publication Date Title
DE69435090T2 (de) Rechnersystem mit Steuereinheiten und Rechnerelementen
US5068851A (en) Apparatus and method for documenting faults in computing modules
CN1043022A (zh) 检查双处理装置中校验程序的方法
EP1011047B1 (en) Fault recovery method and storage controller in information processing apparatus
JPH01154242A (ja) 二重ゾーンの耐欠陥コンピュータシステム
CN106843966A (zh) 一种加载io模块驱动程序的方法及装置
CN1179272C (zh) 信号处理设备
JPH03292537A (ja) 制御データのキュー構造管理処理方式
CN1146793C (zh) 信号处理装置
JP2752911B2 (ja) ポート接続確認方法
JPS62168229A (ja) システム構成自動認識処理方法
JPH079636B2 (ja) バス診断装置
EP1845447B1 (en) Method, apparatus and software for preventing switch failures in the presence of faults
JP2002006910A (ja) 更新機能付きプログラマブルコントローラおよびプログラマブルコントローラの機能拡張ユニットの機能更新方法
JPH05265883A (ja) デュアルポートramインタフェース方式
JPS6011901A (ja) 分散形制御装置のバツクアツプ装置
JPH0427239A (ja) Lan接続装置の制御方法
JPH04125716A (ja) 電源断診断システム
JPH0434184B2 (zh)
JPH02133848A (ja) データバスのチェック方法
JPH11249714A (ja) プログラマブルコントローラ
JPH01302454A (ja) バスチェックシステム
JPH04102929A (ja) 情報処理装置
JPS6398764A (ja) マルチ計算機システムにおけるフアイルリカバリ方式
JPH02148333A (ja) マルチプロセッサシステムの異常診断方式

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C13 Decision
GR02 Examined patent application
C14 Grant of patent or utility model
GR01 Patent grant
C15 Extension of patent right duration from 15 to 20 years for appl. with date before 31.12.1992 and still valid on 11.12.2001 (patent law change 1993)
OR01 Other related matters
C17 Cessation of patent right
CX01 Expiry of patent term

Granted publication date: 19930630