DE69829909T2

DE69829909T2 - Wahlverfahren von der aktiven Station in einem gesicherten System für Informationsverarbeitung

Info

Publication number: DE69829909T2
Application number: DE69829909T
Authority: DE
Inventors: Florence Conseil
Original assignee: Alcatel SA
Current assignee: Alcatel Lucent SAS
Priority date: 1997-02-27
Filing date: 1998-02-26
Publication date: 2006-02-09
Anticipated expiration: 2018-02-27
Also published as: US5964887A; ATE294472T1; DE69829909D1; EP0866582B1; FR2760160B1; EP0866582A1; FR2760160A1

Description

Die Erfindung betrifft ein Sicherungsverfahren für eine Informationsverarbeitungsstation und findet in allen Informationsverarbeitungssystemen Anwendung, die ein hohes Maß an Betriebssicherheit erfordern, zum Beispiel in Telekommunikationsnetzen, deren Betriebsbereitschaft ununterbrochen gewährleistet sein muß.
Die Sicherung eines solchen Systems beinhaltet in bekannter Weise insbesondere die Duplizierung der Informationsverarbeitungsstation. Somit verfügt das System über eine als aktive Station bezeichnete Station, auf welcher die verschiedenen Programme des Systems ausgeführt werden, und über eine als Sicherheitsstation bezeichnete Station. Bei einem Ausfall der aktiven Station muß das System in der Lage sein, auf die Sicherheitsstation umzuschalten, die damit zur aktiven Station wird.
Die meisten gesicherten Systeme dieser Art nutzen gemeinsam denselben Massenspeicher. Es kommt jedoch vor, daß sich diese Konfiguration als unmöglich erweist, wenn die beiden Stationen weit voneinander entfernt sind und deshalb nicht physisch auf dieselben Peripheriegeräte zugreifen können. In diesem Fall ist es erforderlich, eine vollständige Duplizierung der beiden Stationen einschließlich des Massenspeichers derart vorzunehmen, daß jede Station nur Zugriff auf ihren eigenen Massenspeicher hat.
Damit in einem solchen Fall die Umschaltung von der aktiven Station auf die Sicherheitsstation gegenüber den Softwareanwendungen transparent erfolgt, ist es unabdingbar, über einen Mechanismus zur Synchronisation der Daten zu verfügen, die sich auf jedem der beiden Massenspeicher befinden.
Sollte allerdings eine der beiden Stationen ausfallen, kann der Synchronisationsmechanismus nicht mehr angewandt werden.
Lösungen für dieses erste Problem wurden beispielsweise in der französischen Patentanmeldung FR-A-2721465 oder in dem amerikanischen Patent US-A-4596012 beschrieben.
Diese beiden Lösungen sind jedoch in dem Fall unzulänglich, daß die zweite Station ihrerseits ausfällt. In einer solchen Situation ist es erforderlich, beim Neustart als aktive Station diejenige Station auszuwählen, auf deren Massenspeicher sich die aktuellsten Daten befinden, damit keine Informationen verlorengehen, also diejenige Station, auf der es zuletzt zu einem Ausfall gekommen ist.
Das Hauptziel der vorliegenden Erfindung besteht darin, ein Verfahren zur Auswahl der aktiven Station vorzuschlagen, das dieses Problem löst.
Ein zweites Ziel besteht darin, den Neustart der Station in einem reduzierten Betrieb zu beschleunigen, bei dem die zweite Station eine gravierende Betriebsstörung aufweist und zu einem Neustart nicht in der Lage ist.
Deshalb ist das erfindungsgemäße Verfahren dadurch gekennzeichnet, daß gemäß einem wohldefinierten Protokoll ein in einem nichtflüchtigen Speicher enthaltener Identifier oder Kennzeichner verwendet wird, der entweder den abwesenden oder den anwesenden Zustand annehmen kann.
Deshalb ist das erfindungsgemäße Verfahren dadurch gekennzeichnet, daß jede Station in einem ihr zugeordneten nichtflüchtigen Speicher einen Identifier oder Kennzeichner beinhaltet, der entweder den anwesenden Zustand, wenn die besagte Station in ihrem Massenspeicher über aktuellere Daten als die andere Station verfügt, oder im gegenteiligen Fall (also dann, wenn die Station nicht über aktuellere Daten als die andere Station verfügt) den abwesenden Zustand annehmen kann,
dadurch, daß der Identifier vom abwesenden in den anwesenden Zustand wechselt, wenn die andere Station außer Betrieb geht,
dadurch, daß der Identifier umgekehrt vom anwesenden in den abwesenden Zustand wechselt, wenn die andere Station in Betrieb geht,
sowie dadurch, daß eine Station, die in Betrieb geht, als aktive Station ausgewählt wird, wenn sich der Identifier im nichtflüchtigen Speicher, der dieser Station zugeordnet ist, im anwesenden Zustand befindet.
Gemäß einer speziellen Realisierungsform besteht ein drittes Ziel der Erfindung in der Verwaltung der Vorgänge zum Einrichten und Aufheben von Partitionen der Massenspeicher während des laufenden Systembetriebs unter gleichzeitiger Gewährleistung der Auswahl der Station, die über die aktuellsten Daten verfügt, bei einem Ausfall einer Station oder beider Stationen.
Deshalb ist das Verfahren gemäß dieser Realisierungsform dadurch gekennzeichnet, daß der Identifier auf einer Station vom abwesenden Zustand in den anwesenden Zustand wechselt, wenn eine gesicherte Partition der anderen Station aufgehoben wird, sowie dadurch, daß der Identifier vom anwesenden Zustand in den abwesenden Zustand wechselt, wenn diese gesicherte Partition wieder eingerichtet und synchronisiert ist.
Die verschiedenen Eigenschaften und Vorteile der Erfindung werden in der folgenden Beschreibung deutlicher werden, in welcher auf die beigefügten Abbildungen Bezug genommen wird.
1 zeigt ein allgemeines Schema des Systems.
2 veranschaulicht in schematischer Form den Algorithmus zur Auswahl der aktiven Station.
In 1 sind die beiden Stationen mit den Referenznummern 1a und 1b bezeichnet. Sie sind miteinander über eine klassische Verbindung 4 – beispielsweise eine solche vom Ethernet-Typ – verbunden, welche die Synchronisation der Daten gestattet, die auf jedem der Massenspeicher 2a und 2b vorhanden sind. Die Massenspeicher sind über Mittel bekannter Art mit den Stationen verbunden, beispielsweise über Schnittstellen vom Typ SCSI (Small Computer Standard Interface) oder vom Typ PCMCIA (Personal Computer Memory Card International Association).
Jede Station 1a und 1b ist überdies mit einem nichtflüchtigen Speichermittel 3a beziehungsweise 3b verbunden. Dieser Speicher ist auf verschiedene Weise realisierbar. Er kann direkt auf dem Massenspeicher der Station oder auch in unabhängiger Form auf einem Speicher vom Typ NVRAM (Non-volatile Random Access Memory) implementiert sein.
Jeder der beiden Speicher 3a und 3b enthält einen Identifier der Station, die über die aktuellsten Daten verfügt. Dieser Identifier (oder Kennzeichner) kann zwei Zustände annehmen, die im folgenden als "anwesend" oder "abwesend" bezeichnet werden. Der Identifier ist nur dann im nichtflüchtigen Speicher (3a oder 3b) anwesend, wenn die Station (1a beziehungsweise 1b) in ihrem Massenspeicher (2a beziehungsweise 2b) über aktuellere Daten als die andere Station verfügt.
Aus dieser Regel lassen sich zwei unmittelbare Folgerungen ableiten:

• Der Identifier kann nicht auf beiden Stationen gleichzeitig anwesend sein.
• Im Normalbetrieb (oder Nennbetrieb), in dem keine der Stationen in ihrem Massenspeicher über aktuellere Daten als die andere verfügt, ist der Identifier auf keiner der beiden Stationen anwesend.

Um diese allgemeinen Prinzipien einzuhalten und die gestellten Probleme zu lösen, besteht die Erfassungsbedingung darin, den Identifier auf einer Station nur dann vom abwesenden Zustand in den anwesenden Zustand wechseln zu lassen, daß die andere Station außer Betrieb geht.
Umgekehrt wechselt der Identifier auf einer gegebenen Station vom anwesenden Zustand in den abwesenden Zustand, wenn die andere Station wieder in Betrieb geht.
Unter "wieder in Betrieb gehen" wird implizit verstanden, daß nicht nur die Station selbst wieder ihren Betrieb aufnimmt, sondern auch, daß ihr Massenspeicher gegenüber dem anderen Massenspeicher neu synchronisiert wird, und zwar so, daß die Daten auf beiden Stationen identisch sind. Andererseits wird unter "ausgefallen" der Zustand einer Station verstanden, die – entweder als Folge eines Hardwareausfalls oder als Folge eines Softwareausfalls – nicht in Betrieb ist.
2 zeigt in schematischer Form den Auswahlalgorithmus, der bei jedem Start einer Station abläuft.
Zunächst führt die Station 1 einen ersten Test 10 zur Anwesenheit des Identifiers durch. Ist der Identifier anwesend (10a), so kann die Station sofort als aktive Station (A) starten. Dabei ist anzumerken, daß aufgrund der Tatsache, daß auf der Station der Identifier im anwesenden Zustand vorhanden ist, die andere Station nicht in Betrieb ist.
Im gegenteiligen Fall (10b) wird ein zweiter Test 11 zum Zustand der zweiten Station durchgeführt. Wenn diese zweite Station nicht ausgefallen ist (11a), wird ein weiterer Test 13 durchgeführt, mit dem festgestellt wird, ob diese zweite Station als aktive Station gestartet wurde oder nicht. Ist dies der Fall (13a), so startet die Station als Sicherheitsstation (S). Ist dies nicht der Fall (13b), so muß ein Entscheidungsverfahren 14 eingeleitet werden, um festzustellen, welche der beiden Stationen zu aktivieren ist. Dieser Fall tritt insbesondere beispielsweise nach einer allgemeinen Fehlfunktion des Systems auf. Da in einem solchen Fall beide Stationen gleichzeitig außer Betrieb gehen und anschließend fast zeitgleich wieder starten, ist auf keiner von ihnen der Identifier vorhanden, so daß man für die Auswahl der aktiven Station auf ein zusätzliches Entscheidungsmittel zurückgreifen muß.
Es können unterschiedliche Entscheidungsverfahren durchgeführt werden, und die Erfindung ist nicht so zu verstehen, daß sie sich auf ein bestimmtes Verfahren beschränkt. Als Beispiel kann man auch anführen, daß die Entscheidung anhand der Backplane-Adressen getroffen wird, also anhand der Kartenadressen der beiden Stationen im Schaltschrank.
Für den Fall, daß das Ergebnis des Tests 11 über den Start der zweiten Station negativ ausfällt (11b), wird ein Verzögerungstest 12 durchgeführt. Dabei wird der Test 11 über den Start der zweiten Station periodisch durchgeführt, bis eine bestimmte Zeitspanne abgelaufen ist (12b). Wenn sie zu einem gegebenen Zeitpunkt erneut startet (11a), läuft der Algorithmus wie oben beschrieben ab. Wenn dagegen die zweite Station bei Ablauf der vorgegebenen Zeitspanne nicht gestartet ist (12a), startet die Station als aktive Station (A).
Die Verzögerungszeit muß auf jeden Fall länger sein als die Startzeit einer Station. Um die Sicherheit zu erhöhen, kann man diese Zeitspanne vergrößern und beispielsweise eine Verzögerungszeit wählen, die in der Größenordnung der doppelten mittleren Startzeit einer Station liegt.
Das soeben beschriebene Verfahren löst das gestellte technische Problem, nämlich die Auswahl der Station, auf deren Massenspeicher sich die aktuellsten Daten befinden.
Zudem ermöglicht dieses Verfahren auch das Beschleunigen des Neustarts der Station, die über die aktuellsten Daten verfügt. In diesem der Referenznummer 10a in 2 entsprechenden Fall führt die Station, auf der sich der Identifier befindet, sofort einen Neustart durch, ohne einen eventuellen Neustart der anderen Station abzuwarten.
Die Startzeit einer Station hängt von der Konfiguration sowohl der Hardware als auch der Software der Station ab, aber die Größenordnung dieser Zeitspanne läßt sich grob auf einige Minuten abschätzen. Daraus erklärt sich leicht das Interesse an einem solchen Verfahren, das es im Fall von sensiblen Anwendungen gestattet, einige dieser Systemstandzeit-Minuten einzusparen.
Gemäß einer speziellen Realisierungsform des erfindungsgemäßen Verfahrens ist es möglich, eventuelle plötzliche Wartungsvorgänge am System zu berücksichtigen.
Insbesondere besteht der Massenspeicher (2a und 2b) jeder der Stationen (1a beziehungsweise 1b) allgemein aus einer Festplatte, die in eine bestimmte Zahl von Partitionen unterteilt ist. Es werden typisch zwei Partitionstypen verwendet, nämlich gesicherte Partitionen und ungesicherte Partitionen.
Die gesicherten Partitionen werden auf jeder der beiden Stationen dupliziert und sind vorzugsweise für Daten vorgesehen.
Die ungesicherten Partitionen werden dagegen nicht dupliziert und sind vorzugsweise für Objektcodes vorgesehen, die nicht gesichert zu werden brauchen, da sie im Laufe der Zeit nicht modifiziert werden.
Ein Wartungsvorgang auf einer Station kann darin bestehen, eine Partition eines der beiden Massenspeicher und insbesondere eine gesicherte Partition aufzuheben, um beispielsweise eine Datensicherung durchzuführen. Während der Zeitspanne, in der die Partition aufgehoben ist, kann der Synchronisationsmechanismus nicht verwendet werden.
Somit wechselt gemäß einer Realisierungsform des erfindungsgemäßen Verfahrens der Identifier auf einer Station vom abwesenden Zustand in den anwesenden Zustand, wenn eine gesicherte Partition der anderen Station aufgehoben ist, und umgekehrt vom anwesenden Zustand in den abwesenden Zustand, sobald die gesicherte Partition wieder eingerichtet und resynchronisiert ist.

Claims

Verfahren zur Auswahl einer aktiven Station aus zwei Stationen (1a und 1b), von denen jede über einen Massenspeicher (2a beziehungsweise und 2b) verfügt, wobei jede Station in einem ihr zugeordneten nichtflüchtigen Speicher (3a beziehungsweise und 3b) über einen Identifier oder Kennzeichner verfügt, welcher entweder den anwesenden Zustand annehmen kann, wenn die besagte Station in ihrem Massenspeicher über aktuellere Daten als die andere Station verfügt, oder bei Vorliegen des gegenteiligen Falles den abwesenden Zustand annehmen kann, dadurch gekennzeichnet, daß der besagte Identifier vom abwesenden in den anwesenden Zustand wechselt, wenn die besagte andere Station außer Betrieb geht, dadurch, daß der besagte Identifier umgekehrt vom anwesenden in den abwesenden Zustand wechselt, wenn die besagte andere Station in Betrieb geht, sowie dadurch, daß eine Station, die in Betrieb geht, als aktive Station ausgewählt wird, wenn sich der besagte Identifier im nichtflüchtigen Speicher, der dieser Station zugeordnet ist, im anwesenden Zustand befindet.
Auswahlverfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß der besagte nichtflüchtige Speicher ein Speicher vom NVRAM-Typ ist.
Verfahren zur Auswahl einer aktiven Station aus zwei Stationen gemäß einem oder beiden der vorgenannten Ansprüche, dadurch gekennzeichnet, daß der besagte Identifier vom abwesenden in den anwesenden Zustand wechselt, wenn eine gesicherte Partition der besagten anderen Station aufgehoben wird, sowie dadurch, daß der besagte Identifier vom anwesenden in den abwesenden Zustand wechselt, wenn die besagte gesicherte Partition wieder eingerichtet und resynchronisiert ist.
Verfahren zur Auswahl einer aktiven Station aus zwei Stationen gemäß einem der vorgenannten Ansprüche, dadurch gekennzeichnet, daß die besagte in Betrieb gehende Station selbst dann, wenn sich der Identifier im abwesenden Zustand befindet, als aktive Station ausgewählt wird, falls die andere Station nach Ablauf einer zuvor festgelegten Zeitspanne außer Betrieb bleibt.
Verfahren zur Auswahl einer aktiven Station aus zwei Stationen gemäß dem vorgenannten Anspruch, dadurch gekennzeichnet, daß die besagte Zeitspanne gleich der zweifachen mittleren Startzeit einer Station ist.
Verfahren zur Auswahl einer aktiven Station aus zwei Stationen gemäß einem oder mehreren der vorgenannten Ansprüche, dadurch gekennzeichnet, daß für den Fall, daß keine der beiden Stationen zum Startzeitpunkt über einen im anwesenden Zustand befindlichen Identifier verfügt, ein eindeutiger Entscheidungsmechanismus angewandt wird.
Verfahren zur Auswahl einer aktiven Station aus zwei Stationen gemäß Anspruch 6, dadurch gekennzeichnet, daß der Entscheidungsmechanismus darin besteht, als aktive Station diejenige Station auszuwählen, deren Backplane-Adresse entweder die niedrigste oder die höchste Adresse ist.