WO2000051000A1

WO2000051000A1 - Systeme informatique et procede pour gerer les perturbations affectant un systeme informatique

Info

Publication number: WO2000051000A1
Application number: PCT/JP1999/000836
Authority: WO
Inventors: Tomoki Sekiguchi; Toshiaki Arai; Hiroshi Furukawa; Kazumi Ikeda
Original assignee: Hitachi, Ltd.
Priority date: 1999-02-24
Filing date: 1999-02-24
Publication date: 2000-08-31
Also published as: US6948100B1; US7426662B2; JP3991590B2; US20050172169A1; TW449687B; EP1172732A4; EP1172732A1

Description

明細書計算機システム及び計算機システムにおける障害処理方法技術分野

本発明は、計算機システムに関し、特に、障害処理を効率よく行なう計算機システムに関する。背景技術

遠隔管理用の入出力装置であるリモート管理装置を P C I バス等の I 0バスを介して計算機に接続して、リモート管理装置により計算機を管理する方法がある。リモート管理装置は、ネットワークアダプタゃモデムといった通信用の入出力装置を'有し、 L A Nや電話回線等により他の計算機と接続して、遠隔地にある他の計算機から計算機を管理している。

リモート管理装置は、 I ノ 0バス、あるいは、管理対象の計算機の管理情報を転送する専用のバスを経由して、計算機の稼動情報を取得する

。リモート管理装置は、管理対象の計算機の C P Uが I / Oバス経由でアクセス可能なレジスタやメモリを保持している。

また、特開平 9— 5 0 3 8 6ゃ特開平 5 — 2 5 7 9 1 4、および、特開平 5 — 2 5 0 2 8 4のように、リモート管理装置は、 C P U、メモリ、および、ネットワークアダプタやモデムといった通信装置を含む I ノ 0装置を持つ計算機（管理装置計算機）として構成される場合もある。この場合、管理装置計算機上の C P Uは、管理対象の計算機とは独立して管理用のプログラムを実行でき、管理対象の計算機の実行状態に関わらず管理プログラムを実行することができる。つまり、計算機のォペレ一ティングシステム（ O S ) の起動前、障害停止時、外部からの操作を受け付けない状態（ハングアップ）時でも、管理装置計算機は実行可能になっている。

I / 0バスに接続される従来の管理装置は、管理対象の計算機がハングアップする障害が発生した場合、 C P Uのリセット、あるいは、管理対象の計算機の電源の遮断等の方法により計算機を再起動している。この再起動は、管理装置と管理対象の計算機を専用の信号線で接続して、その信号線を経由して管理対象の計算機の C P Uにリセット信号を送つたり、あるいは、管理対象の計算機上のファームウェアに制御を移す割り込みを送ることにより実現している。専用線が必要なのは、 I Z Oバスには O Sの実行を強制的に停止させるような割り込みを送る信号線がないためである。

この再起動方法を実施するには、管理装置と管理対象の計算機との間に I 0バス以外の信号線を設置しなければならない。このため、管理装置を接続可能な管理対象の計算機が限定されてしまう問題がある。つまり、管理装置と管理対象の計算機を専用線で接続できる組み合わせでなければ、障害発生時に管理装置から管理対象の計算機を再起動できない。

. また、従来の管理装置の再起動方法は、 C P Uのリセットによるため O Sが介在する機会がなく、加えて、 O S の再起動により管理対象の計算機の主記憶の内容が失われてしまう。このため、障害原因の解析を困難している。さらに再現性のない障害の場合、障害解析をすることができず問題である。

一方、 P C [ スのような汎用の I / Oバスについてみると、前に述ベたように、 O S の実行を強制的に障害処理へ移行させる割り込みを管理装置から管理対象の計算機に送ることができない。しかし、 I / Oバスが、 I z 0バス経由で転送されるアドレス、コマンド、および、データ等の正確性を保証するための付加情報（例えばパリティビット）を転送する信号線を持っている場合もある（PCI Hardware and Software Architecture Design, ppl72~ 174, Annabooks, 1994 ) ₀ このよラな付カロ情報を転送できる I 0バスであれば、管理対象の計算機や入出力装置は、 I Z Oバス経由のデータ転送において I Z Oバス上のデータの正確性を検証することは可能である。

更に、前記の機能を持つ 'I 0バスを使用している場合、 I 0バスの付加情報により不正な信号を検出した時に、障害を C P Uに通知するための信号線を持つ I 0バス制御装置もある（Microprocessor Report, ppll- 12, Vol.12, Number 9, July, 1998 ) 。

管理対象の計算機の C P Uについてみると、バスに障害が発生すると、メモリアクセスができなくなって、 C P Uが動作できない状況が発生し得る。このようにバスがロックしている場合、 C P Uに割り込み信号を送っただけでは、 C P Uの実行を再開することはできない。これは、バス障害のためにメモリアクセスができないため、割り込みハンドラを起動できないためである。

このような障害に対して、バスに関する障害信号を検出した場合に、 C P Uをリセットするのではなくノスだけを再初期化して、その後に内部的に割り込みを生成して割り込みハンドラに制御を渡す C P Uがある ( Microprocessor Report, ppl, 6〜 10， Vol.12, Number 9, July, 1998) 。この C P Uに依れば、ノくスがロックしてしまっても C P Uの実行を再開させることができ、 O Sの障害処理を開始させることも可能となる。

従来の 1 0バスに接続する計算機の管理装置では、 O Sの障害処理が実行できなくなる障害が計算機に発生した時、 I ノ 0バス以外の信号線により計算機の C P Uをリセッ卜する、あるいは、計算機上のファームウェアにより C P Uをリセットして、計算機全体を再起動している。これら方法では、 C P Uがリセットされてしまうため、 0 Sは障害処理を実行することができず、障害情報が取得できなくなるという問題があつた。

また、従来の管理装置では、 I 0バスとは別の信号線、あるいは、計算機上に C P Uのリセット処理を実行する回路やファームウェアが必要であった。この方式には、管理装置の接続可能な計算機が限定されるという問題があった。

本発明の目的は、 0 Sの障害処理が実行できなくなる障害が計算機に発生した場合でも、障害情報を取得可能な計算機システムを提供することにある。

また、本発明の別の目的は、 I Z Oバスを介して管理対象の計算機のバスを初期化可能な計算機システムを提供することにある。発明の開示

上記目的を達成するために、本発明では、計算機と管理装置が 1 0 バスにより接続された計算機システムにおいて、 0 Sの障害処理が実行できなくなる障害が計算機に発生した場合、障害管理装置から計算機内の I / 0バス管理装置に I / 0バス障害の発生を通知する I Z Oバス信号を送る。そして、 I Z Oバス管理装置は、 I Z Oバスを初期化した後、 I / 0バス障害を計算機の C P Uに O Sが処理する割り込みとして通知する。

このようにして、従来、 O Sの障害処理が実行できなくなる障害が計算機に発生した場合でも、 O Sへの割り込みを契機として障害情報を取得可能な計算機システムを提供することができる。また、 I Z 0バスを介して管理対象の計算機のバスを初期化可能な計算機システムを提供でさる。図面の簡単な説明

第 1 図は、本発明の実施形態のシステム構成図である。

第 2 図は、本発明の実施形態のプログラムの構成図である。

第 3 図は、デバイス制御装置の構成図である。

第 4 図は、 I / Oバス制御装置の構成図である。

第 5 図は、 C P U内の障害処理部分の構成図である。

第 6 図は C P U 内のバス初期化部分の構成図である。

第 7 図は O S のノくスエラ一割り込みハンドラの処理のフロチャトである。

第 8 図は管理装置で実行する管理プログラムの処理のフローチャ一トである。

第 9 図は 0バス上の信号のタイミングを示す図である第 1 0 図は、本発明の第 2 の実施形態における、管理装置内のバス口ック解除装置の構成図である。

第 1 1 図は、本発明の第 2 の実施形態における、管理装置で実行する管理プログラムの処理のフローチヤ一トである。

第 1 2 図は、本発明の第 3 の実施形態における、管理装置内の障害生成装置の構成図である。

第 1 3 図は、本発明の第 4 の実施形態における、計算機と管理装置の構成図である。

第 1 4 図は、本発明の第 4 の実施形態における、管理装置で実行する計算機停止処理のフローチヤ一トである。

第 1 5 図は、本発明の第 5 の実施形態における、管理装置で実行する計算機停止処理のフローチヤ一トである。発明を実施するための最良の形態

以下、図面を用いて本発明の実施例を説明する。

( 1 ) 第 1 の実施形態

第 1図は、本発明の実施形態のシステム構成を示す図である。計算機 1 0 0 は、管理装置 1 2 0の管理対象となる計算機である。

計算機 1 0 0の構成について説明する。 C P U 1 0 1 と主記憶 1 0 2 は、バス 1 0 3 により接続している。バス 1 0 3 には、 I /〇バス 1 0 7を制御する I Z 0バス制御装置 1 0 4が接続している。バス 1 0 3 には、 C P U 1 0 1 や I / 0バス制御装置 1 0 4 に、ノ<ス 1 0 3 に関する内部状態のリセットを指示する信号線が含まれる。 I Z 0バス制御装置 1 0 4からは I ノ 0バス 1 0 7が伸びている。 I 0ノくス 1 0 7 には、管理装置 1 2 0 、外部記憶装置 1 0 5、キーボード、ディスプレイ等の対話型デバイスから構成されるコンソール 1 0 6等が接続される。

I / Oバス制御装置 1 0 4 は、 C P U 1 0 1 が実行する入出力操作の I / 0バス 1 0 7への転送や、 I Z Oバス 1 0 7 に接続する入出力機器からのデータの、主記憶 1 0 2や C P U 1 0 1 内のレジスタへの転送、割り込みの C P U 1 0 1への転送等を実施する。

I / 0バス制御装置 1 0 4 と C P U 1 0 1 は、バスエラー通知線 1 0

8 により接続している。バスエラ一通知線 1 0 8 は、 I / Oバス制御装置 1 0 4が、 I / Oバス 1 0 7上でエラーを検出した時に、 C P U 1 0 1 にバスエラ一を通知するためのバス信号線である。

次に、管理装置 1 2 0 について説明する。管理装置 1 2 0 は、計算機 1 0 0の I / 0バス 1 0 7に接続する外部入出力装置の一種で、遠隔から計算機 1 0 0 の実行状況の監視や起動 · 停止等の運用操作を実現する。管理装置 1 2 0 は、それ自体で計算機を構成しており、そこで実行するプログラムは、計算機 1 0 0 の O S が停止している時でも独立して実行可能である。管理装置 1 2 0 で実行するプログラムは、モデム 1 2 7 ゃネットワークアダプタ 1 2 8 を制御して、計算機 1 5 1 、および、 1 7 0 のような遠隔にある計算機と連携して、遠隔にある計算機からの計算機 1 0 0 の運用のための操作を実現する。

管理装置 1 2 0 上の C P U 1 2 1 と主記憶 1 2 2 は、ノくス 1 2 3 で接続している。バス 1 2 3 には、 I Z 0バス制御装置 1 2 4 が接続し、 I Z 0バス制御装置 1 2 4 からは I / 0ノス 1 2 5 が伸びている。 I Z 0 ノス 1 2 5 には、モデム 1 2 7 ゃネットワークアダプタ 1 2 8 があり、遠隔の計算機と通信可能となっている。

管理装置 1 2 0 は、デバイス制御装置 1 2 6 を介して、計算機 1 0 0 の I Z Oバス 1 0 7 と接続する。デバイス制御装置 1 2 6 は、 C P U 1 0 1 が実行する管理装置 1 2 0 に対する入出力操作要求を受信して、要求に応じた制御を実施する。例えば、主記憶 1 2 2 の内容を変更する、 C P U 1 2 1 に割り込みを送信する等の操作である。

デバイス制御装置 1 2 6 は、 C P U 1 2 1 からも入出力装置として見えるように構成する。デバイス制御装置 1 2 6 は、 C P U 1 2 1 の実行する入出力操作を受けて I / 0バス 1 0 7 にデータを書き出す等の操作を実施する。

デバイス制御装置 1 2 6 の中に、障害生成装置 1 3 0 がある。障害生成装置 1 3 0 は、 C P U 1 2 1 の指示を受けて I ノ 0ノくス 1 0 7 に不正な信号を送出する装置である。計算機 1 0 0 の I ノ 0バス制御装置 1 0 4 は、 I /〇バス 1 0 7 上で不正な信号を検出した場合、ノスエラー通知線 1 0 8 により C P U 1 0 1 に障害を通知する。

第 2図は、本発明の実施形態のソフトウエア構成図である。ここでは、計算機 1 0 0 の I / Oバス 1 0 7 に管理装置 1 2 0 が接続されており、管理装置 1 2 0 のネットワークアダプタ 1 2 .8 がネットワークを介して管理計算機 1 5 1 に接続されている。

計算機 1 0 0 と 1 5 1 、および、管理装置 1 2 0 のそれぞれには、 0 S 2 0 1 、 0 S 2 2 1 、および、 O S 2 1 3 力ローデイングされ、動作している。計算機 1 0 0 では、通常のアプリケーションプログラム群 2 0 2 が実行している。加えて、計算機 1 0 0 では、管理装置 1 2 0 と連携して実行する管理エージヱントプログラム 2 0 3 が動作している。管理エージヱント 2 0 3 は、計算機 1 0 0 で実行するプログラム 2 0 2、および O S 2 0 1 の実行状況の収集、管理装置 1 2 0 への実行状況送信、管理装置 1 2 0への動作指示、管理装置 1 2 0 が収集した計算機 1 0 0 の実行状況情報の取得、運用管理処理を実施する。運用管理処理とは、計算機 1 0 0 の自動起動 · 停止時刻の設定、計算機 1 0 0 のシャツトダウン、リブート、電源断、管理情報の表示ゃネットワークへの管理情報送信等である。

管理装置 1 2 0 では、遠隔の計算機 1 5 1 との通信を行う通信制御プログラム 2 1 2 と、計算機 1 0 0 の運用管理処理をする管理プログラム 2 1 1 が実行している。管理プログラム 2 1 1 は、計算機 1 0 0 の動作状況の取得、時刻指定による計算機 1 0 0 の電源制御、 O S 2 0 1 の自動起動 · 停止処理、管理エージェント 2 0 3 収集情報の遠隔管理計算機 1 5 1 への転送、遠隔計算機 1 5 1 からの運用操作要求の処理等を実行する。

管理装置 1 2 0 上のプログラム 2 1 1 ないし 2 1 3 は、計算機 1 0 0 の O S 2 0 1 が停止していても実行可能である。計算機 1 0 0 が O S 2 0 1 の障害のため停止している時、管理プログラム 2 1 1 は、 I Z Oバス 1 0 7 経由で主記憶 1 0 2 の内容を取得、遠隔計算機 1 5 1 へ障害情報の送信等の障害処理を実施する。加えて、本実施形態では、障害生成装置 1 3 0 を駆動して 1 0バス 1 0 7 に障害.信号を送出し、 O S 2 0 1 の障害処理を起動させる処理を実施する。

遠隔の計算機 1 5 1 や 1 7 0 は、 L A Nのようなネットワーク 1 5 0 、あるいは、電話回線といった通信回線 1 4 0 で管理装置 1 2 0 と接続している。遠隔計算機 1 5 1 では、遠隔計算機管理プログラム 2 2 0 が実行している。このプログラム 2 2 0 は、管理装置 1 2 0 上の管理プログラム 2 1 1 と通信により管理情報を交換して、計算機 1 0 0 の運用管理操作を実行する。例えば、計算機 1 0 0 の運用管理情報の表示、遠隔からの停止 · リブート、 O S 2 0 1 の障害処理開始指示などを実行するノくス 1 0 3 や I / 0バス 1 0 7 で障害が発生すると、 C P U 1 0 1 はバスエラ一割り込みを生成して障害処理を実行する。 O S 2 0 1 内には、バスエラー割り込みを処理する割り込みハンドラ 2 0 4 がある。割り込みハンドラ 2 0 4 は、 C P U 1 0 1 の割り込みベクタに登録されて、バスエラ一割り込み発生時に実行されるように設定される。

第 3図は、本実施形態におけるデバイス制御装置 1 2 6 の構成を示した図である。デバイス制御装置 1 2 6 は、 I ノ 0バスインターフェイス回路 3 0 1 を介して管理装置 1 2 0 の I Z Oバス 1 2 5 、および、計算機 1 0 0 の I / Oバス 1 0 7 と接続している。回路 3 0 1 は、各 I Z O ノスからのデバイス制御装置 1 2 6 宛てデータの取出し、あるいは、 C P Uからの I 0バスへのデータの送出を実施する回路である。回路 3 0 1 は、 I / Oバス 1 0 7 より取得したデータ内容に従って、デバイス制御装置 1 2 6 内の他の回路を駆動する。

制御装置 1 2 6 には、 I Z 0ノくス 1 0 7用のパリティ生成回路 3 0 2 と、障害生成'装置 1 3 0 が組み込まれている。本実施形態では、ハ° リティ生成回路 3 0 2 は、 I Z Oバス 1 0 7 に送出するアドレス信号 1 0 7 b に関するパリティ信号 1 0 7 a を、排他的論理和回路の組み合わせにより生成している。通常実行時は、パリティ生成回路 3 0 2 で生成したノ、。リティ信号をそのまま I / 0バス 1 0 7 に送出する。

障害生成装置 1 3 0 は、パリティ生成回路 3 0 2 が生成したパリティ信号を反転して、 I Z Oバス 1 0 .7 で障害と定義される信号を生成する。障害信号の生成は、障害生成レジスタ 3 0 3 で制御する。通常動作時は、レジスタ 3 0 3 は 0 に設定する。レジスタ 3 0 3 を 1 に設定すると、障害生成装置 1 3 0 はパリティ生成回路 3 0 2 で生成された信号を反転して、 I Z Oバス 1 0 7 に障害となる信号を送出する。

レジスタ 3 0 3 は、管理装置 1 2 0 の C P U 1 2 1 の入出力命令によりアクセス可能なように構成.する。管理プログラム 2 1 1 は、レジスタ 3 0 3 を 1 にセットして 1 ノ 0バス 1 0 7 にアクセスする操作を実行することで計算機 1 0 0 の O S 2 0 1 を強制停止できる。

障害生成装置 1 3 0 は、パリティ信号 1 0 7 a に不正な信号を送出した時点で障害生成状態レジスタ 3 0 4 を 1 にセットする。また、 I / O バス 1 0 7への障害注入が連続して発生しないように、レジスタ 3 0 3 を 0 にリセットする。

本実施形態では、ァドレス信号のパリティを不正な値にすることで I 0バスに障害を送出したが、不正なバス信号の生成の仕方はこの限りではない。

I 0バス制御装置 1 0 4 について説明する。第 4 図は、本実施形態における I Z 0バス制御装置 1 0 4 の構成の一部を示す図である。

I 0バス制御装置 1 0 4 は、 I Z〇バス 1 0 7へのデータの送出、および、 I / Oバス 1 0 7 からのデータの取り込みを実施する。データ取り込みの際、 1 / 0バス 1 0 7上のデータが不正になっていないかを検査するため、アドレス信号 I 0 7 b に関するティ信号 1 0 7 a を参照する。 I Z 0バス制御装置 1 0 4 内のパリティ計算回路 4 0 1 は、アドレス信号 1 0 7 b よりパリティ値を求める。この ⁰リティ値と I / 0バス 1 0 7 のパリティ信号 1 0 7 a を比較する。一致しない場合、スエラー通知線 1 0 8 により、 C P U 1 0 1 にバス障害を通知する。障害生成装置 1 3 0 により I Z 0バス 1 0 7 に障害となる信号が送出された場合、パリティ値が不正になるため、 C P U 1 0 1 にバス障害が通知される。

第 5 図に C P U 1 0 1 側のバス障害処理に関する構成を示す。 C P U 1 0 1 は、バスエラー信号線 1 0 8 よりバス障害を通知されると、バス初期化回路 5 0 1 により /くス 1 0 3 の初期化を実施する。ここでバス 1 0 3 の初期化とは、 C P U 1 0 1 内部にあるバスに関する状態を初期状態に設定することを示し、 C P U 1 0 1 のリセットではない。このバス初期化処理は、バス 1 0 3 に接続している他の装置でも必要であり、バス初期化信号 1 0 3 b として他の装置にもバス初期化を指示する。

また、 C P U 1 0 1 は、遅延回路 5 0 2 でエラー通知信号 1 0 8 を遅延させて、バス 1 0 3 の初期化が終了した時点で、割込み制御回路 5 0 4 を駆動して内部的にバスエラー割り込みを生成する。

通常の外部割り込みは、外部割り込み信号 1 0 3 a でプロセッサに通知される。外部割り込みは、割り込み禁止レジスタ 5 0 3 の値によりマスクされる。バスエラ一通知による割り込みが、割り込み禁止レジスタ 5 0 3 によるマスク制御を迂回して割り込み制御回路 5 0 4 を駆動するように構成すれば、 C P U 1 0 1 が外部割り込み禁止の状態でも、バス障害による割り込みを生成できる。

C P U 1 0 1 のバス初期化処理について説明する。第 6 図は、 C P U

1 0 1 のバス初期化回路 5 0 1 の構成例を示した図である。 C P U 1 0 1 のバスに関係する回路は、クロック信号 6 0 4 に同期して駆動する。 .

C P U 1 0 1 内には、ノス 1 0 3 を制御する回路がある。その中には、過去にバス 1 0 3 を流れたデータに関連する状態を保持している部分がある。この例では、フリップフロップにより構成されたレジスタ 6 0 3 がバス状態を保存しているとする。レジスタ 6 0 3 は、クロック信号 6 0 4 と同期して、バス状態を取り込む。

通常動作時のレジスタ 6 0 3 の値は、バス制御回路 6 0 1 により決定される。バス初期化信号 1 0 3 b がアクティブでない、つまり 0 の場合は、バス制御回路 6 0 1 の出力値がレジスタ 6 0 3 に到達するようにスイッチ回路 6 0 5 を構成する。

バス初期化信号 1 0 3 b がアクティブの場合は、初期状態レジスタ 6 0 2 に設定されている値がレジス夕 6 0 3 に到達するようにスィッチ回路 6 0 5 を構成する。初期状態レジスタ 6 0 2 の値は、 C P U 1 0 1 に予め設定されている、あるいは、計算機 1 0 1 の電源投入時の初期化により設定される。これにより、 C P U 1 0 1 は、バス初期化信号 1 0 3 b を受けてレジスタ 6 0 3 を初期状態に設定できる。

本実施形態では、 C P U 1 0 1 がバス初期化信号 1 0 3 b をバス 1 0 3 に送出したが、バスエラ一通知信号 1 0 8 をバス 1 0 3 に接続する各々の装置が検出して、各装置で初期化を実施しても良い。

本実施形態では、以上のハードウェア構成により、計算機 1 0 0 の I Z 0バス 1 0 7 に接続する管理装置 1 2 0 が、計算機 1 0 0 の実行状態とは独立した任意の時点に、 I Z 0バス 1 0 7 で障害と定義される信号を I / 0バス 1 0 7 へ送出することで、パ'ス 1 0 3 に接続する各装置が保持するバス 1 0 3 に関連する内部状態を初期化して、 C P U 1 0 1 でバスエラー割り込みを生成することが可能となる。次に、本実施形態のソフトウェアの処理について説明する。第 7 図は、計算機 1 0 0 で実行する O S 2 0 1 内の、バスエラー用の割り込みハンドラ 2 0 4 の処理を示すフローチヤ一トである。

C P U 1 0 1 は、バスエラ一割り込みを捕獲すると、ステップ 7 0 1 から始まる割り込みハンドラ 2 0 4 に制御を渡す。バスエラー割り込みは、管理装置 1 2 0 が意図的に発生する場合と、そうでない場合がある。割り込みハンドラ 2 0 4 では、まず、管理装置 1 2 0 の障害生成状態レジスタ 3 0 4 の値を取得する（ステップ 7 0 1 ) 。レジスタ 3 0 4 は、 C P U 1 0 1 から I Z Oバス 1 0 7経由でアクセス可能なように構成されている。

続いて取得したレジスタ 3 0 4 の値を検査し（ステップ 7 0 2 ) 、レジス夕 3 0 4 の値が 0 である場合、つまり、管理装置 1 2 0 がバス障害を送出したのではに場合は、通常のバスエラー処理（ステップ 7 0 5 ) を実行する。例えば、障害情報のコンソール 1 0 6 への表示、主記憶 1 0 2 の外部記憶装置 1 0 5 へのダンプ、計算機 1 0 0 の再起動等であるレジスタ 3 0 4 力 1 の場合、すなわち、管理装置 1 2 0 が I Z 0 ノくス 1 0 7 に障害を注入したことによるバスエラーの場合は、障害状態生成レジスタをリセットし（ステップ 7 0 3 ) 、その旨をコンソール 1 0 6 に表示する（ステップ 7 0 4 ) 。 7 2 0 は、コンソール画面表示の例である。

管理装置 1 2 0 内の管理プログラム 2 1 1 の処理について説明する。第 8 図は、管理プログラム 2 1 1 の処理例を示すフローチャートであるまず、ステップ 8 0 1 で、計算機 1 0 0 への停止要求があるかどうか検査する。 '停止要求は、遠隔の計算機 1 5 1 や 1 7 0 から通信回線経由でモデム 1 2 7ゃネットワークアダプタ 1 2 8 に送られたり、および、緊急停止ボタン 1 2 9の押下等'により生じる。 .

停止要求がない場合は、計算機 1 0 0の動作状況を収集して管理デ— 夕 2 1 0 に格納する（ステップ 8 0 2 ) 。取得したデータ 2 1 0 より、計算機 1 0 0が正常に実行しているか判定する（ステップ 8 0 3 ) 。実行している場合は、動作状況を遠隔の計算機に送信する（ステップ 8 0 4 ) 。停止している場合は、ステップ 8 0 7へ進み、障害情報を取得して遠隔の計算機に送信する。

停止要求がある場合は、ステップ 8 0 5を実行する。ここでは、障害生成レジスタ 3 0 3を 1 に設定し、 I Z Oバス 1 0 7へアクセスする命令を実行する（ステップ 8 0 6 ) 。これにより、 C P U 1 0 1 でバスェラー割り込みが生成されて、バスエラー割り込みハンドラ 2 0 4 に制御が渡る。

その後、ステップ 8 0 7へ進み、障害情報を遠隔の計算機に送信する以上のハードウェア構成、および、ソフトゥヱァ手順により、 I Z O バス 1 0 7に接続した管理装置 1 2 0 より、計算機 1 0 0 で実行する 0 S 2 0 1 の実行を強制停止して、 O Sの障害処理であるバスエラー割り込みハンドラ 2 0 4を実行することが可能となる。

本実施形態は、管理装置 1 2 0の障害生成装置 1 3 0が、計算機 1 0 0 の実行状態とは無関係の任意の時点に、 I Z 0バス 1 0 7に障害となる信号を送出することにより、計算機 1 0 0で実行する O S 2 0 1 の強制停止を実現している。この実施形態では、計算機 1 0 0 と管理装置 1 2 0を I / 0バス 1 0 7だけで接続する。従来の専用信号線で管理装置と計算機を接続する方式と比べて、管理装置 1 2 0が接続できる計算機 1 0 0の制限が緩和される。また、従来の管理装置が、障害による O S実行停止時に C P U リセットにより計算機の再起動を実行していたため、 .障害原因の解析を困難にしていた。それに対し、本実施形態では、 I Z 0バス制御装置 1 0 4 がバスエラ一を. C P U 1 0 1 に通知し、 C P U 1 0 1 はそれを受けて割り込みを生成して割り込みハンドラ 2 0 4 を実行する。この割り込みハンドラ 2 0 4 の延長で、主記憶 1 0 2 の内容の外部記憶装置 1 0 5 への格納、障害要因解析、障害要因除去などの障害処理や、 O S 2 0 1 の停止処理を実行できるため、後の障害解析と回復が容易になる。

また、 C P U 1 0 1 、および、バス 1 0 3 に接続する各々の装置がバス 1 0 3 に関する内部状態を初期化してから C P U 1 0 1 が割り込みを生成するため、割り込みハンドラ 2 0 4 が実行できる可能性が高まる。本実施形態では、バスエラー割り込みハンドラ 2 0 4 で主記憶 1 0 2 の内容を外部記憶装置 1 0 5 に格納するとしたが、主記憶 1 0 2 の内容の全て、あるいは、一部や、割り込みハンドラ 2 0 4 による障害解析情報を、管理装置 1 2 0 の主記憶装置 1 2 2 に格納しても良い。

この実施形態では、管理装置 1 2 0 が I / 0バス 1 0 7 に障害信号を送出するとしたが、ネットワークアダプタやモデムといった装置に、特定のバケツトあるいはデータを受信した時に、 I / 0バス 1 0 7 に障害信号を送出するように障害信号生成装置 1 3 0 を組み込んでも良い。 ( 2 ) 第 2 の実施形態

次に、本発明の第 2 の実施形態について説明する。

第 1 の実施形態では、 I 〇バス 1 0 7 に接続している管理装置 1 0 2 から I Z 0バス 1 0 7 に、障害と認識される信号を送出する必要があつた。このためには、管理装置 1 2 0 カ 1 ノ 0 ノくス 1 0 7へアクセスする権利を取得しなければならない。つまり、ノくス 1 0 7 の調停でバスの使用権を獲得しなければならない。ところが、管理装置 1 2 0 が、 I Z 0バス 1 0 7 の使用権が取得できない場合がある。 C P U 1 0 1 が、 I / 0バス.1 0 7 に接続しているデバイスに対してある連繞した非分割の処理を実行する場合、 I ノ 0バス 1 0 7 を排他的に使用するとしてバス使用権を獲得する。これを、バスをロックすると呼ぶ。この時に、対象デバイスが故障している等の理由でデバイスが応答できなければ、バス 1 0 7 の使用権が解放されないままになる。

このような場合、第 1 の実施形態では Iノ 0バス 1 0 7 に障害信号を注入できないため、管理装置 1 2 0 から計算機 1 0 0 の O S 2 0 1 の障害処理を起動できない。

本発明の第 2の実施形態では、バスが口ックしている状態を解除してから、障害信号を送出する手段と手順について説明する。本実施形態では、管理装置 1 2 0 が I 0バス 1 0 7 のロック状態を検査できるようにする。更に、管理装置 1 2 0 が、パ'スをロックしたまま完了しない I / 0バス要求に対して、任意のデータを送出することで要求操作が完了したと見せかけ、要求発行元にバス口ックを解除させる。

1 0バス上のデータの流れについて説明する。第 9 図は、本実施形態における I 0バス 1 0 7上でのデータの流れを示すタイミング図である。

第 9 図は、 1 0バス 1 0 7 のアクセス権調停が済んで、実際にデ一夕の受け渡しをする時のバス信号の状態を示している。 I 0バス 1 0 7 にアクセスするデバイスは、ァグセス権を獲得した後、アクセス対象デバイスを指定するアドレス信号 1 0 7 b を出力する。

このアクセスを排他的に実行したい場合は、 I / 0バスロック信号 1 0 7 c を同時にアクティブにする。 I Z 0バス 1 0 7 に接続するデバイスは、 <スロック信号 1 0 7 c がアクティブになっている間、 I / 0バス 1 0 7 に次の要求を出すことができないよう構成される。要求元デバイスは、操作が終了するまでバスロック信号 1 0 7 c をアクティブにしておく。

アドレス信号 1 0 7 b により指定されたデバイスは、操作を完了すると応答信号 1 0 7 dをアクティブにして、データが有ればデ一タ信号線 1 0 7 e にデータを出力する。

要求元デバイスは、応答信号 1 0 Ί dがアクティブになったのを検出して、データ信号線 1 0 7 e よりデータを取り込み、バスロック信号 1 0 7 c のアクティブを解除する。

第 1 0 図は、第 2の実施形態での制御装置 1 2 0 の構成を示した図である。 C P U 1 0 1 がデバイス 1 0 2 0 に対して非分割の連続 I Z O要求を発行したが、デバイス 1 0 2 0 が応答できないとして説明する。

C P U 1 0 1 が非分割の I Z 0要求を発行すると、〖 / 0バス制御装置 1 0 4 は、 I Z 0バス 1 0 7 のバスロック信号 1 0 7 c をアクティブにする。

制御装置 1 2 0 には、各時点のバスロック信号 1 0 7 c を保持するバスロック状態レジスタ 1 0 0 6 を設ける。バスロック状態レジスタ 1 0 0 6 は、管理装置 1 2 0 上の C P U 2 0 1 から参照可能なように構成され、管理プログラム 2 1 1 はその値を知ることができる。

管理装置 1 2 0 は、通常動作時は、 I / Oバス 1 0 7 のアドレス信号 1 0 7 b が制御装置 1 2 0 を指定した時だけ応答信号 1 0 7 d を出力するように構成されている。これに加えて、管理プログラム 2 1 1 の指示により、任意の時点に I Z Oバス 1 0 7 へ応答信号 1 0 7 d を送出する手段を持つている。

応答信号 1 0 7 d は、代理応答制御レジスタ 1 0 0 1 で制御する。代理応答制御レジスタ 1 0 0 1 力 0 の場合は、デバイス制御回路 1 0 0 2 が出力する応答信号 1 0 0 3 が、 I 0バスの応答信号 1 0 7 d として出力される。 .

I Z Oバスデータ信号 1 0 7 e も、代理応答制御レジスタ 1 0 0 1 により制御する。スィッチ回路 1 0 0 5 が、レジスタ 1 0 0 1 の値に応じて、デバイス制御回路 1 0 0 2 の出力値か、代理応答値レジスタ 1 0 0 4 の出力値を、データ信号 1 0 7 e に出力する。

つまり、代理応答制御レジスタ 1 0 0 1 を 1 にセットすると、応答信号 1 0 7 dがアクティブになり、代理応答値レジスタ 1 0 0 4 に格納されている値がバスデータ信号 1 0 7 e に送出される。

次に、本実施形態の制御プログラム 2 1 1 の処理について説明する。第 1 1 図は、制御プログラム 2 1 1 の、 O S 2 0 1 の強制停止処理を示すフローチヤ一トである。

まず、制御プログラム 2 1 1 は、ノくスロック状態レジスタ 1 0 0 6 参照して、 I Z 0バス 1 0 7 がロックされているかどうか検査する（ステップ 1 1 0 1 ) 。ロックされていない場合は、ステップ 1 1 0 3 へ進み、第 1 の実施形態と同じ手順で、障害生成レジスタ 3 0 3 を 1 にセットして、 I Z Oバス 1 0 7 に障害信号を注入する。

ロックされている場合は、ステップ 1 1 0 2 へ進む。ステップ 1 1 0 2 では、代理応答制御レジスタを 1 にセットする。これにより、 I / O バス 1 0 7 のロック解除を試み、ステップ 1 1 0 1 へ戻って、再度バスロック状態を検査する。これで、バスロックが解除されれば、ステップ 1 1 0 3へ進み、障害信号を注入する。

以上の手段と手順により、管理装置 1 2 0 は、 I ノ 0バス 1 0 7 が他のデバイスにロックされていても、障害信号を I Z Oバス 1 0 7 に注入することが可能になる。これにより、 I Z〇バス 1 0 7 だけで計算機 1 0 () に接続している管理装置 1 2 0 から 0 S 2 0 1 を強制停止できる障害範囲が拡大する。

( 3 ) 第 3 の実施形態

次に、本発明の第 3 の実施形態について説明する。第 2 の実施形態では、 1 0バス 1 0 7 のロックの解除と、 1 0バス 1 0 7 への障害注入の制御を個別に実行した。本実施形態では、これらを 1 つの回路としてまとめて制御装置 1 2 0 に実現する手段について説明する。

第 1 2 図は、本実施形態の障害生成装置 1 2 0 1 の構成を示す図である。障害生成装置 1 2 0 1 には、障害生成回路 1 2 0 2 とバスロック解除回路 1 2 0 3 が含まれている。障害生成回路 1 2 0 2 は、第 1 の実施形態の第 3 図に示した障害生成装置 1 3 0 と同様の構成である。バス口ック解除回路 1 2 0 3 も、第 2 の実施形態の第 1 0 図に示した構成と同様の構成である。

障害生成装置 1 2 0 1 は、クロック 6 0 4 と同期して I Z Oバス 1 0 7 のノ 'スロック信号 1 0 7 c を採取して、ノくスロック状態レジスタ 1 2 0 4 に格納している。

障害生成装置 1 2 0 1 は、障害信号注入の制御を、障害生成レジスタ 1 2 0 5 により実施する。障害生成レジスタ 1 2 0 5 が 0 の時、障害生成回路 1 2 0 2 とバスロック解除回路 1 2 0 3 は、作動しない。制御プログラム 2 1 1 は、 O S 2 0 1 の実行を停止する時、障害生成レジスタ 1 2 0 5 を 1 に設定する。

障害生成レジスタ 1 2 0 5 を 1 に設定した時にバスロック信号 1 0 7 c がアクティブでなければ、障害生成回路 1 2 0 3 が作動する。回路 1 2 0 3 は、 1 / 0バス 1 0 7 に障害となる信号を送出する。

レジスタ 1 2 0 5 を 1 に設定した時にパ'スロック信号 1 0 7 c がァクティブである場合は、バスロック解除回路 1 2 0 4 が作動する。回路 1 - 2 0 4 は、 I Z 0 ノくス 1 0 7 にバス応答信号 1 0 7 d とバスデータ信号 1 0 7 e を送出して、ノスロックの解除を試みる。

バスロックが解除されると、つまり、バス口.ック信号 1 0 7 c がァクティブでなくなると、障害生成回路 1 2 0 3 が作動し、障害信号を I / 0 ノくス 1 0 7 に送出する。

本実施形態に依れば、第 2 の実施形態でのようにソフトウエアによりロック信号を監視して障害信号を注入するよりも、確実に計算機 1 0 0 の実行を停止できる。また、第 2 の実施形態でのソフトゥヱァによる制御部を除去できる。

第 2 .と第 3の実施形態では、管理装置 1 2 0 が疑似の応答信号を I / 0バス 1 0 7 に送出してバスロックを解除した。 I Z 〇ノくス 1 0 7 の構成によっては、応答に応答先を指定しなければならないバスもある。この場合は、管理装置 1 2 0 がバスロックを要するバストランザクションを送出した装置のバス上の識別子を記録しておけば良い。

( 4 ) 第 4 の実施形態

次に、本発明の第 4 の実施形態について説明する。これまで説明した実施形態では、 I Z 0バス 1 0 7 だけの接続により計算機 1 0 0 の実行を停止する方式について説明したが、管理装置 1 2 0 が従来の専用信号線も備えていても良い。例えば、計算機 1 0 0 の実行を停止する場合、まず、本発明の手段により O S 2 0 1 の停止を試み、本発明の手段により停止できなければ、従来の手段により計算機 1 0 0 をリセットする。これを実現する計算機 1 0 0 と管理装置 1 2 0 の構成について説明する第 1 3 図は、第 4 の実施形態の計算機 1 0 0 と管理装置 1 2 0 の構成を示す図である。計算機 1 0 0 には、 C P U 1 0 1 をリセットするリセット回路 1 3 0 2 がある。リセット回路 1 3 0 2 は、リセット制御線 1 3 0 3 により管理装置 1 2 0 と接続している。リセット制御線 1 3 0 3 がアクティブになった時に、リセット回路 1 3 0 2 が作動し、 C P U 1 0 1 をリセットする。これにより計算機全体が.リセットされる。

管理装置 1 2 0 には、リセット制御レジスタ 1 3 0 1 がある。リセット制御レジスタ 1 3 0 1 は、 C P U 1 2 1 から設定可能なように構成する。リセット制御レジスタ 1 3 0 1 が 1 に設定されたときに、リセット制御線がァクティブになるよう構成する。

次に、管理プログラム 2 1 1 の計算機 1 0 0 停止の処理フロ一について説明する。第 1 4 図は、そのフローチャートを示している。まず、障害生成装置 1 3 0 を駆動して、 I Z Oバス 1 ひ 7 に障害信号を送出してみる（ステップ 1 4 0 1 ) 。あらかじめ定めた時間を待ってから（ステップ 1 4 0 2 ) 、 O S 2 0 1 が障害処理を実行したかを検査する（ステップ 1 4 0 3 ) 。処理が実行されていなければ、ステップ 1 4 0 4 でリセット制御レジスタ 1 3 0 2 を 1 にして、計算機 1 0 0 をリセットする ( 5 ) 第 5 の実施形態

これまで説明した実施形態では、遠隔の計算機や操作者が I Z 0バス 1 0 7への障害送出の契機を与えるとしているが、管理装置 1 2 0 や管理プログラム 2 1 1 が障害送出の実施するかを決定しても良い。本発明の第 5の実施形態では、管理エージヱントプログラム 2 0 3 と管理プログラム 2 1 1 が連携により、障害送出を実施する方式について述べる。管理装置 1 2 0 には、管理エージヱント 2 0 3 が実行していることを示す、エージェント起動レジスタがある。エージェント起動レジスタは、計算機 1 0 0 の C P U 1 0 1 と管理装置 1 2 0 の C P U 2 0 1 の両方からアクセス可能なように構成される（図省略）。

管理エージェント 2 0 3 は、一定時間間隔で実行して、実行時にエージェント起動レジスタをセッ卜するように構成する（フローチャート省略）。管理装置 1 2 0 の側では、エージェント起動レジスタを参照することにより、計算機 1 0 0 が正常実行しているか判定する。

第 1 5 図は、管理装置 1 2 0 で実行する管理プログラム 2 1 1 の処理を示すフローチャートである。第 1 5 図に示した処理は、一定時間間隔で実行されるように構成する。

管理プログラム 2 1 1 は、エージヱント起動レジスタを検査した時に、レジスタがセッ卜されていない回数を記録する変数（未起動回数）を保持している。

管理プログラム 2 1 1 の処理について説明する。まず、管理装置 1 2 0 のエージント起動レジスタを検査する（ステップ 1 5 0 1 ) 。本レジス夕がセットされている場合は、本レジスタをクリアし（ステップ 1 δ 0 4 ) 、未起動回数を 0 に設定して（ステップ 1 5 0 5 ) 、終了するレジスタがセッ卜されていない場合、未起動回数を検査する（ステツプ 1 5 0 2 ) 。未起動回数が予め定めた正整数 Xである場合、 I / Oバス 1 0 7 に障害信号を送出する（ステップ 1 5 0 3 ) 。 Xでない場合は、未起動回数に 1 を加算して（ステップ 1 5 0 6 ) 、終了する。

以上により、管理プログラム 2 1 1 が計算機 1 0 0 の実行状態を検査して、自発的に I Ζ Οバス 1 0 7 に障害を送出することが可能となる。障害を送出する時に、遠隔の計算機 1 5 1 や 1 7 0 に、計算機 1 0 0 を強制停止したことを示すメッセージを送信しても良い。

また、第 5 の実施形態では、ソフトゥヱァにより I / 0バス 1 0 7への障害送出を実施するようにしたが、管理装置 1 2 0 に一定時間再設定されなければ障害生成装置 1 3 0 を駆動するように構成したウォッチドッグタイマを設けてもよい。

この場合、管理エージヱン卜 2 0 3 は、一定時間間隔で実行して、実行時にウォッチドッグタイマを再設定するよう構成する。管理プログラム 2 1 1 の側では、特別な処理は不要になる。 .

また、管理プログラム 1 2 0 が、計算機 1 0 0 の主記憶 1 0 2 の内容を参照して、 O S 2 0 1 の実行状況を検査して、それに応じて I Z Oバス 1 0 7 に障害信号を送出しても良い。産業上の利用可能性

以上のように、本発明にかかる計算機の障害処理方法及び装置は、管理装置から I Z Oバス経由で管理対象の計算機に障害発生の信号を送り、管理対象の計算機ではこの信号の受信を契機としてバスの初期化を行なうとともに、割り込みを生成する計算機システムを構築するのに適している。

Claims

請求の範囲

1 . 計算機と管理装置が I / 0バスにより接続.された計算機システムにおける障害処理方法であって、所定の時点で前記管理装置から前記計算機内の I Z Oバス管理装置に I / 0バス障害の発生を通知する I / 0バス信号を送り、当該 I Z 0バス管理装置において前記 I ノ 0バスを初期化した後、 I Z Oバス障害を当該計算機の C P U に当該 C P U にて動作する 0 S が処理する割り込みとして通知することを特徴とする計算機システムにおける障害処理方法。

2 . 前記所定の時点は、障害が前記計算機に発生した時点である請求の範囲第 1 項記載の計算機システムにおける障害処理方法。

3 . 前記所定の時点は、前記計算機から前記管理装置に不正なデータが送られた時点である請求の範囲第 1 項記載の計算機システムにおける障害処理方法。

4 . 前記 O S は、割り込みを契機として障害処理を行なうことを特徴とする請求の範囲第 1 項記載の計算機システムにおける障害処理方法。

5 . 前記所定の時点は、前記計算機が所定時間内に所定の記憶装置の内容を更新しない時点である請求の範囲第 1 項記載の計算機システムにおける障害処理方法。

6 . 計算機と、管理装置と、前記計算機と前記管理装置とを接続する I Z 0バスから構成され、前記管理装置は所定の時点で前記計算機内の I / 0バス管理装置に I 0バス障害の発生を通知する I 0バス信号を送り、当該 1 Z 0バス管理装置は前記 I Z 0バス信号を受信したことに応じて、前記 I ノ 0バスを初期化した後、 I Z 0バス障害を当該計算機の C P U に当該 C P Uにて動作する 0 S が処理する割り込みとして通知することを特徴とする計算機システム。

7 . . 前記所定の時点は、障害が前記計算機に発生した時点である請求の範囲第 6 項記載の計算機システム。

8 . 前記所定の時点は、前記計算機から前記管理装置に不正なデータが送られた時点である請求の範囲第 6 項記載の計算機システム。

9 . 前記 O S は、割り込みを契機として障害処理を行なうことを特徴とする請求の範囲第 6 項記載の計算機システム。

1 0 . 前記所定の時点は、前記計算機が所定時間内に所定の記憶装置の内容を更新しない時点である請求の範囲第 6 項記載の計算機システム。