-
Die
Erfindung betrifft ein Sicherungsverfahren für eine Informationsverarbeitungsstation
und findet in allen Informationsverarbeitungssystemen Anwendung,
die ein hohes Maß an
Betriebssicherheit erfordern, zum Beispiel in Telekommunikationsnetzen,
deren Betriebsbereitschaft ununterbrochen gewährleistet sein muß.
-
Die
Sicherung eines solchen Systems beinhaltet in bekannter Weise insbesondere
die Duplizierung der Informationsverarbeitungsstation. Somit verfügt das System über eine
als aktive Station bezeichnete Station, auf welcher die verschiedenen Programme
des Systems ausgeführt
werden, und über
eine als Sicherheitsstation bezeichnete Station. Bei einem Ausfall
der aktiven Station muß das
System in der Lage sein, auf die Sicherheitsstation umzuschalten,
die damit zur aktiven Station wird.
-
Die
meisten gesicherten Systeme dieser Art nutzen gemeinsam denselben
Massenspeicher. Es kommt jedoch vor, daß sich diese Konfiguration
als unmöglich
erweist, wenn die beiden Stationen weit voneinander entfernt sind
und deshalb nicht physisch auf dieselben Peripheriegeräte zugreifen
können.
In diesem Fall ist es erforderlich, eine vollständige Duplizierung der beiden
Stationen einschließlich
des Massenspeichers derart vorzunehmen, daß jede Station nur Zugriff
auf ihren eigenen Massenspeicher hat.
-
Damit
in einem solchen Fall die Umschaltung von der aktiven Station auf
die Sicherheitsstation gegenüber
den Softwareanwendungen transparent erfolgt, ist es unabdingbar, über einen
Mechanismus zur Synchronisation der Daten zu verfügen, die
sich auf jedem der beiden Massenspeicher befinden.
-
Sollte
allerdings eine der beiden Stationen ausfallen, kann der Synchronisationsmechanismus nicht
mehr angewandt werden.
-
Lösungen für dieses
erste Problem wurden beispielsweise in der französischen Patentanmeldung FR-A-2721465
oder in dem amerikanischen Patent US-A-4596012 beschrieben.
-
Diese
beiden Lösungen
sind jedoch in dem Fall unzulänglich,
daß die
zweite Station ihrerseits ausfällt.
In einer solchen Situation ist es erforderlich, beim Neustart als
aktive Station diejenige Station auszuwählen, auf deren Massenspeicher
sich die aktuellsten Daten befinden, damit keine Informationen verlorengehen,
also diejenige Station, auf der es zuletzt zu einem Ausfall gekommen
ist.
-
Das
Hauptziel der vorliegenden Erfindung besteht darin, ein Verfahren
zur Auswahl der aktiven Station vorzuschlagen, das dieses Problem
löst.
-
Ein
zweites Ziel besteht darin, den Neustart der Station in einem reduzierten
Betrieb zu beschleunigen, bei dem die zweite Station eine gravierende Betriebsstörung aufweist
und zu einem Neustart nicht in der Lage ist.
-
Deshalb
ist das erfindungsgemäße Verfahren
dadurch gekennzeichnet, daß gemäß einem wohldefinierten
Protokoll ein in einem nichtflüchtigen Speicher
enthaltener Identifier oder Kennzeichner verwendet wird, der entweder
den abwesenden oder den anwesenden Zustand annehmen kann.
-
Deshalb
ist das erfindungsgemäße Verfahren
dadurch gekennzeichnet, daß jede
Station in einem ihr zugeordneten nichtflüchtigen Speicher einen Identifier
oder Kennzeichner beinhaltet, der entweder den anwesenden Zustand,
wenn die besagte Station in ihrem Massenspeicher über aktuellere
Daten als die andere Station verfügt, oder im gegenteiligen Fall (also
dann, wenn die Station nicht über
aktuellere Daten als die andere Station verfügt) den abwesenden Zustand
annehmen kann,
dadurch, daß der
Identifier vom abwesenden in den anwesenden Zustand wechselt, wenn
die andere Station außer
Betrieb geht,
dadurch, daß der
Identifier umgekehrt vom anwesenden in den abwesenden Zustand wechselt,
wenn die andere Station in Betrieb geht,
sowie dadurch, daß eine Station,
die in Betrieb geht, als aktive Station ausgewählt wird, wenn sich der Identifier
im nichtflüchtigen
Speicher, der dieser Station zugeordnet ist, im anwesenden Zustand
befindet.
-
Gemäß einer
speziellen Realisierungsform besteht ein drittes Ziel der Erfindung
in der Verwaltung der Vorgänge
zum Einrichten und Aufheben von Partitionen der Massenspeicher während des
laufenden Systembetriebs unter gleichzeitiger Gewährleistung
der Auswahl der Station, die über
die aktuellsten Daten verfügt,
bei einem Ausfall einer Station oder beider Stationen.
-
Deshalb
ist das Verfahren gemäß dieser
Realisierungsform dadurch gekennzeichnet, daß der Identifier auf einer
Station vom abwesenden Zustand in den anwesenden Zustand wechselt,
wenn eine gesicherte Partition der anderen Station aufgehoben wird,
sowie dadurch, daß der
Identifier vom anwesenden Zustand in den abwesenden Zustand wechselt, wenn
diese gesicherte Partition wieder eingerichtet und synchronisiert
ist.
-
Die
verschiedenen Eigenschaften und Vorteile der Erfindung werden in
der folgenden Beschreibung deutlicher werden, in welcher auf die
beigefügten
Abbildungen Bezug genommen wird.
-
1 zeigt
ein allgemeines Schema des Systems.
-
2 veranschaulicht
in schematischer Form den Algorithmus zur Auswahl der aktiven Station.
-
In 1 sind
die beiden Stationen mit den Referenznummern 1a und 1b bezeichnet.
Sie sind miteinander über
eine klassische Verbindung 4 – beispielsweise eine solche vom
Ethernet-Typ – verbunden,
welche die Synchronisation der Daten gestattet, die auf jedem der
Massenspeicher 2a und 2b vorhanden sind. Die Massenspeicher
sind über
Mittel bekannter Art mit den Stationen verbunden, beispielsweise über Schnittstellen
vom Typ SCSI (Small Computer Standard Interface) oder vom Typ PCMCIA (Personal
Computer Memory Card International Association).
-
Jede
Station 1a und 1b ist überdies mit einem nichtflüchtigen
Speichermittel 3a beziehungsweise 3b verbunden.
Dieser Speicher ist auf verschiedene Weise realisierbar. Er kann
direkt auf dem Massenspeicher der Station oder auch in unabhängiger Form
auf einem Speicher vom Typ NVRAM (Non-volatile Random Access Memory)
implementiert sein.
-
Jeder
der beiden Speicher 3a und 3b enthält einen
Identifier der Station, die über
die aktuellsten Daten verfügt.
Dieser Identifier (oder Kennzeichner) kann zwei Zustände annehmen,
die im folgenden als "anwesend" oder "abwesend" bezeichnet werden. Der
Identifier ist nur dann im nichtflüchtigen Speicher (3a oder 3b)
anwesend, wenn die Station (1a beziehungsweise 1b)
in ihrem Massenspeicher (2a beziehungsweise 2b) über aktuellere
Daten als die andere Station verfügt.
-
Aus
dieser Regel lassen sich zwei unmittelbare Folgerungen ableiten:
- • Der
Identifier kann nicht auf beiden Stationen gleichzeitig anwesend
sein.
- • Im
Normalbetrieb (oder Nennbetrieb), in dem keine der Stationen in
ihrem Massenspeicher über
aktuellere Daten als die andere verfügt, ist der Identifier auf
keiner der beiden Stationen anwesend.
-
Um
diese allgemeinen Prinzipien einzuhalten und die gestellten Probleme
zu lösen,
besteht die Erfassungsbedingung darin, den Identifier auf einer Station
nur dann vom abwesenden Zustand in den anwesenden Zustand wechseln
zu lassen, daß die andere
Station außer
Betrieb geht.
-
Umgekehrt
wechselt der Identifier auf einer gegebenen Station vom anwesenden
Zustand in den abwesenden Zustand, wenn die andere Station wieder
in Betrieb geht.
-
Unter "wieder in Betrieb
gehen" wird implizit verstanden,
daß nicht
nur die Station selbst wieder ihren Betrieb aufnimmt, sondern auch,
daß ihr
Massenspeicher gegenüber
dem anderen Massenspeicher neu synchronisiert wird, und zwar so,
daß die Daten
auf beiden Stationen identisch sind. Andererseits wird unter "ausgefallen" der Zustand einer
Station verstanden, die – entweder
als Folge eines Hardwareausfalls oder als Folge eines Softwareausfalls – nicht
in Betrieb ist.
-
2 zeigt
in schematischer Form den Auswahlalgorithmus, der bei jedem Start
einer Station abläuft.
-
Zunächst führt die
Station 1 einen ersten Test 10 zur Anwesenheit
des Identifiers durch. Ist der Identifier anwesend (10a),
so kann die Station sofort als aktive Station (A) starten. Dabei
ist anzumerken, daß aufgrund
der Tatsache, daß auf
der Station der Identifier im anwesenden Zustand vorhanden ist,
die andere Station nicht in Betrieb ist.
-
Im
gegenteiligen Fall (10b) wird ein zweiter Test 11 zum
Zustand der zweiten Station durchgeführt. Wenn diese zweite Station
nicht ausgefallen ist (11a), wird ein weiterer Test 13 durchgeführt, mit
dem festgestellt wird, ob diese zweite Station als aktive Station
gestartet wurde oder nicht. Ist dies der Fall (13a), so
startet die Station als Sicherheitsstation (S). Ist dies nicht der
Fall (13b), so muß ein
Entscheidungsverfahren 14 eingeleitet werden, um festzustellen,
welche der beiden Stationen zu aktivieren ist. Dieser Fall tritt
insbesondere beispielsweise nach einer allgemeinen Fehlfunktion
des Systems auf. Da in einem solchen Fall beide Stationen gleichzeitig
außer
Betrieb gehen und anschließend
fast zeitgleich wieder starten, ist auf keiner von ihnen der Identifier vorhanden,
so daß man
für die
Auswahl der aktiven Station auf ein zusätzliches Entscheidungsmittel
zurückgreifen
muß.
-
Es
können
unterschiedliche Entscheidungsverfahren durchgeführt werden, und die Erfindung
ist nicht so zu verstehen, daß sie
sich auf ein bestimmtes Verfahren beschränkt. Als Beispiel kann man auch
anführen,
daß die
Entscheidung anhand der Backplane-Adressen getroffen wird, also
anhand der Kartenadressen der beiden Stationen im Schaltschrank.
-
Für den Fall,
daß das
Ergebnis des Tests 11 über
den Start der zweiten Station negativ ausfällt (11b), wird ein
Verzögerungstest 12 durchgeführt. Dabei
wird der Test 11 über
den Start der zweiten Station periodisch durchgeführt, bis
eine bestimmte Zeitspanne abgelaufen ist (12b). Wenn sie
zu einem gegebenen Zeitpunkt erneut startet (11a), läuft der Algorithmus
wie oben beschrieben ab. Wenn dagegen die zweite Station bei Ablauf
der vorgegebenen Zeitspanne nicht gestartet ist (12a),
startet die Station als aktive Station (A).
-
Die
Verzögerungszeit
muß auf
jeden Fall länger
sein als die Startzeit einer Station. Um die Sicherheit zu erhöhen, kann
man diese Zeitspanne vergrößern und
beispielsweise eine Verzögerungszeit
wählen,
die in der Größenordnung
der doppelten mittleren Startzeit einer Station liegt.
-
Das
soeben beschriebene Verfahren löst
das gestellte technische Problem, nämlich die Auswahl der Station,
auf deren Massenspeicher sich die aktuellsten Daten befinden.
-
Zudem
ermöglicht
dieses Verfahren auch das Beschleunigen des Neustarts der Station,
die über
die aktuellsten Daten verfügt.
In diesem der Referenznummer 10a in 2 entsprechenden
Fall führt
die Station, auf der sich der Identifier befindet, sofort einen
Neustart durch, ohne einen eventuellen Neustart der anderen Station
abzuwarten.
-
Die
Startzeit einer Station hängt
von der Konfiguration sowohl der Hardware als auch der Software
der Station ab, aber die Größenordnung
dieser Zeitspanne läßt sich
grob auf einige Minuten abschätzen.
Daraus erklärt
sich leicht das Interesse an einem solchen Verfahren, das es im
Fall von sensiblen Anwendungen gestattet, einige dieser Systemstandzeit-Minuten
einzusparen.
-
Gemäß einer
speziellen Realisierungsform des erfindungsgemäßen Verfahrens ist es möglich, eventuelle
plötzliche
Wartungsvorgänge
am System zu berücksichtigen.
-
Insbesondere
besteht der Massenspeicher (2a und 2b) jeder der
Stationen (1a beziehungsweise 1b) allgemein aus
einer Festplatte, die in eine bestimmte Zahl von Partitionen unterteilt
ist. Es werden typisch zwei Partitionstypen verwendet, nämlich gesicherte
Partitionen und ungesicherte Partitionen.
-
Die
gesicherten Partitionen werden auf jeder der beiden Stationen dupliziert
und sind vorzugsweise für
Daten vorgesehen.
-
Die
ungesicherten Partitionen werden dagegen nicht dupliziert und sind
vorzugsweise für
Objektcodes vorgesehen, die nicht gesichert zu werden brauchen,
da sie im Laufe der Zeit nicht modifiziert werden.
-
Ein
Wartungsvorgang auf einer Station kann darin bestehen, eine Partition
eines der beiden Massenspeicher und insbesondere eine gesicherte
Partition aufzuheben, um beispielsweise eine Datensicherung durchzuführen. Während der
Zeitspanne, in der die Partition aufgehoben ist, kann der Synchronisationsmechanismus
nicht verwendet werden.
-
Somit
wechselt gemäß einer
Realisierungsform des erfindungsgemäßen Verfahrens der Identifier
auf einer Station vom abwesenden Zustand in den anwesenden Zustand,
wenn eine gesicherte Partition der anderen Station aufgehoben ist,
und umgekehrt vom anwesenden Zustand in den abwesenden Zustand,
sobald die gesicherte Partition wieder eingerichtet und resynchronisiert
ist.