DE4301417A1

DE4301417A1 -

Info

Publication number: DE4301417A1
Application number: DE4301417A
Authority: DE
Inventors: Edward T Grochowski; Kenneth D Shoemaker; Ahmad Zaidi; Donald B Alpert
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 1992-01-23
Filing date: 1993-01-20
Publication date: 1993-07-29
Anticipated expiration: 2013-01-21
Also published as: ITMI930109A0; DE4301417C2; JPH0628185A; HK1006882A1; GB2263565B; US5475824A; FR2686717A1; FR2686717B1; ITMI930109A1; GB2263565A; CN1074771A; GB9300079D0; IT1263811B

Description

Die vorliegende Erfindung betrifft ein Computersystem; ins besondere bezieht sich die Erfindung auf eine Mikroprozessorar chitektur und auf Wege zur Erhöhung der Geschwindigkeit, mit welcher Befehle ausgeführt werden.

Historisch bedingt wurden Computer so konstruiert, daß sie Befehle sequentiell, d. h. einen nach dem anderen, ausführen. Während das sequentielle Ausführen von Computerbefehlen ein lo gisches und geordnetes Betriebsverfahren zur Verfügung stellt, führte die stets vorhandene Forderung nach einer Erhöhung der Verarbeitungsgeschwindigkeit zum Suchen von Wegen zum Implemen tieren eines parallelen Ausführungsschemas.

Es gibt zahlreiche zu überwindende Probleme, wenn man er folgreich einen Computer oder Mikroprozessor konstruieren will, welcher zum parallelen Ausführen mehrerer Befehle in der Lage ist. Beispielsweise haben Mikroprozessoren typischerweise eine Befehlssatzarchitektur, welche hunderte von Einzelbefehlen ent hält. Zählt man sämtliche verschiedenen Arten der Adressiermo den für eine gegebene Architektur hinzu, ergibt sich wahr scheinlich eine Gesamtzahl möglicher Befehlscodes irgendwo im Bereich von Tausenden. Eine Paarbildung an sämtlichen der dabei möglichen ersten Befehle mit sämtlichen möglichen zweiten Be fehlen für einen gegebenen Befehlssatz führt leicht zu Millio nen unterschiedlicher Kombinationen. Der Entwurf einer Ma schine, welche zum Ausführen all dieser Kombinationen in der Lage ist, ist eine gewaltige Aufgabe. Es ist klar, daß die Ent wurfskomplexität so groß werden kann, daß ein solches Problem unüberschaubar wird. Problematisch ist der Bau verschiedener Decodierer, welche den vollständigen Befehlssatz in einer par allelen Maschine, welche Befehlspaare ohne große Zeitverzöge rungen ausführen könnte, decodieren könnten.

Ein anderes, mit dem Bau eines zum parallelen Ausführen von Befehlen geeigneten Computers verbundenes Problem ist, daß der Computer auch in der Lage sein muß, Software abzuarbeiten, wel che für ältere Maschinen konzipiert wurde; d. h. für Maschinen, welche durch sequentielle Ausführung von Befehlen - ein Befehl pro Taktzyklus - arbeiten. Mit anderen Worten: eine parallele Maschine muß das Erscheinungsbild einer sequentiellen Arbeits weise abgeben.

Wie zu sehen sein wird, offenbart die Erfindung ein Com putersystem, das zum Ausführen von zwei Befehlen in einem ein zigen Taktzyklus in der Lage ist. Die Erfindung arbeitet, indem sie ein aus einem gegebenen Befehlssatz ausgewähltes Befehls paar decodiert und anschließend das Paar parallel ausführt, um ein korrektes Ergebnis zu erhalten. Eines der hervorstechenden Merkmale der Erfindung ist, daß das Computersystem nur dann zwei Befehle parallel ausgibt, wenn es keine Registerabhängig keiten zwischen den gepaarten Befehlen gibt.

Es wird ein Computersystem beschrieben, das zwei Befehle parallel in einem einzigen Taktzyklus ausführen kann. Das Com putersystem weist einen Dual-Befehlsdecodierer auf, welcher dann zwei Befehle parallel ausgibt, wenn es keine Registerab hängigkeiten zwischen den Befehlen gibt und beide Befehle in den Befehlssatz des Computers fallen.

Bei einem Ausführungsbeispiel der Erfindung sind erste und zweite Befehls-Pipeline-Mittel zum Ausführen von Computerbefeh len vorgesehen. Die ersten Pipeline-Mittel können irgendeinen aus dem vollständigen Befehlssatz ausgegebenen Befehl ausfüh ren, während die zweiten Pipeline-Mittel auf die Ausführung ei nes vorgegebenen Teilsatzes von Befehlen beschränkt sind. Der Teilsatz wird in Abhängigkeit davon ausgewählt, was häufig aus geführte Befehle sind.

Es ist ein Registerabhängigkeitsüberprüfungsmittel vorgese hen zum Identifizieren des Zielregisters des ersten Befehls ei ner Befehlssequenz. Das Abhängigkeitsüberprüfungsmittel be stimmt auch, ob das Zielregister während der Ausführung des zweiten Befehls der Sequenz verwendet wird. Wenn dies nicht der Fall ist, zeigt das Abhängigkeitsüberprüfungsmittel an, daß eine erste Bedingung erfüllt ist. Außerdem ist ein Mittel vor gesehen, das bestimmt, ob sich der erste und der zweite Befehl der Sequenz innerhalb des vorgegebenen Teilsatzes befinden. Wenn beide Befehle im Teilsatz enthalten sind, zeigt das Be stimmungsmittel an, daß eine zweite Bedingung erfüllt ist. Je desmal dann, wenn sowohl die erste als auch die zweite Bedin gung erfüllt sind, kann das Befehlspaar parallel ausgegeben werden.

Ein weiteres Merkmal der Erfindung ist, daß das Computersy stem standardmäßig vorgibt (defaults), nur den ersten Befehl der Sequenz auszugeben, wenn nur eine der ersten oder zweiten Bedingungen erfüllt sind. D.h., wenn der erste und der zweite Befehl eine Registerabhängigkeit aufweisen oder wenn einer der Befehle nicht aus dem vorgegebenen Teilsatz entnommen ist, dann geht die Maschine standardmäßig in eine Bedingung, bei der nur der erste Befehl in einem einzigen Taktzyklus ausgeführt wird. Unter dieser Bedingung wird der zweite Befehl der Sequenz wäh rend des nächsten Taktzyklus ausgegeben.

Im folgenden wird die Erfindung anhand eines in der Zeich nung dargestellten Ausführungsbeispiels näher beschrieben. In der Zeichnung zeigen:

Fig. 1 die Ausführungsstruktur einer CPU-Pipeline eines bekannten Mikroprozessors;

Fig. 2 die Ausführungsstruktur der CPU-Pipeline nach der Erfindung; und

Fig. 3 ein Blockdiagramm der bei der Erfindung verwen deten Dual-Befehlsdecodierer-Einrichtung.

Es wird ein Mikroprozessor mit einer Einrichtung zum paral lelen Ausführen von zwei Befehlen während eines einzigen Takt zyklus beschrieben. In der folgenden Beschreibung werden zahl reiche spezielle Details erläutert, wie beispielsweise spe zielle Befehlstypen, Mikroprozessorarten usw., um ein besseres Verständnis des bevorzugten Ausführungsbeispiels der Erfindung zu erreichen. Für den Fachmann ist es jedoch klar, daß die Er findung auch ohne diese speziellen Details ausgeführt werden kann. An anderen Stellen werden bekannte Schaltungen, Struktu ren und Verfahren nicht im Detail gezeigt, um das Verständnis der Erfindung nicht unnötig zu erschweren.

Die Erfindung betrifft eine Einrichtung und ein Verfahren zum parallelen Ausführen mehrerer Computerbefehle in einem ein zigen Taktzyklus. Die Erfindung ist vorzugsweise in einem als i586 bekannten Mikroprozessor ausgeführt, welcher durch die In tel Corporation hergestellt wird. Der Mikroprozessor i586 ist eine verbesserte Version des Intel-Mikroprozessors i486. De tails der Architektur des Mikroprozessors i486 sind in zahlrei chen Veröffentlichungen beschrieben. (Intel, i486 und i586 sind Warenkennzeichnungen der Intel Corporation.) Obwohl in der Be schreibung häufig auf die Architektur des i586 Bezug genommen wird und Beispiele aus deren Befehlsfamilie herrühren, ist es klar, daß die Erfindung nicht auf diese spezielle Maschine be schränkt ist.

PIPELINING

Das Pipelining ist eine Implementierungsmethode, bei der mehrere Befehle gleichzeitig und überlappend ausgeführt werden. Das Pipelining ist eine im großen Umfang benutzte bekannte Me thode zum Verbessern der Effizienz und der Ausführungsgeschwin digkeit einer zentralen Verarbeitungseinheit (CPU). Bei einer Pipeline-Struktur gehen die Befehle an einem Ende ein - werden durch die Stufen oder Segmente hindurch verarbeitet - und ver lassen die Pipeline am anderen Ende wieder. Jede der Stufen der Pipeline schließt einen Teil des Befehls ab.

In Fig. 1 ist eine bekannte Pipeline-Struktur dargestellt, in welcher die Befehlsstufen durch die Einträge entlang der linken Spalte bezeichnet sind. Die Taktzeitintervalle zwischen den Befehlsschritten sind durch die horizontalen Nummern veran schaulicht. Jeder Schritt in der Pipeline wird als ein Taktzy klus oder Maschinenzyklus bezeichnet.

Die erste Stufe der Pipeline ist die Stufe "PF", welche den Abschnitt des Vor-Heranholens (prefetch) der Pipeline bezeich net. In dieser Stufe werden die Befehle aus einem On-Chip-Ca che-Speicher herangeholt. Die nächste Stufe der Pipeline ist mit "D1" bezeichnet. In dieser Stufe werden Befehle decodiert und ausgegeben. Die Stufe D2 ist eine Adreßberechnungsstufe. Es sei angemerkt, daß in Übereinstimmung mit den Prinzipien der Pipeline ein zweiter Befehl (beispielsweise I2) mit dem Ausfüh ren seiner Vor-Heranhol-Stufe beginnt, während sich der erste Befehl (beispielsweise I1) gerade in der Ausführung der Stufe D1 des zweiten Taktzyklus befindet. Die Stufe "EX" (execution) der Pipeline zeigt die hardwaremäßige Ausführung des Befehls an, während die Stufe "WB" (writeback) eine Rückschreib-Opera tion bezeichnet. Zu beachten ist, daß bei der bekannten Struk tur gemäß Fig. 1 in jedem beliebigen gegebenen Taktzyklus nur ein einziger Befehl in der Pipeline ausgeführt wird.

Wie bereits erörtert, stellt die Erfindung eine superska lare Maschine dar, welche in der Lage ist, während eines Takt zyklus zwei Befehle parallel auszuführen. Um dieses Ziel zu er reichen, enthält die Erfindung zwei vollständige Pipelines, von welchen jede in der Lage ist, Befehle in einem einzigen Taktzy klus auszuführen. Folglich kann die CPU zwei Befehle parallel in zwei getrennten Pipelines ausgeben. Im gegenwärtig bevorzug ten Ausführungsbeispiel werden die Pipelines als "u"- und "v"- Pipeline bezeichnet. Vorzugsweise kann die u-Pipeline jeden Be fehl der x86-Architektur ausführen. Die v-Pipeline kann be stimmte einfache Befehle ausführen, die konkreter in einem spä teren Abschnitt der Beschreibung definiert werden.

Unter Bezugnahme auf Fig. 2 wird die Pipeline-Struktur der Erfindung dargestellt. Zu beachten ist, daß in der Pipeline-Se quenz gemäß Fig. 2 zwei Befehle, I1 und I2, so dargestellt sind, daß sie in jeder Stufe der Pipeline in einem einzigen Taktzyklus ausgeführt werden. Wiederum ist die erste Stufe der Pipeline die Vor-Heranhol-Stufe, in deren Zeit Befehle von dem On-Chip-Cache herangeholt werden. Weil der erfindungsgemäße Mi kroprozessor separate Cache-Speicher für Befehle und für Daten aufweist, steht das Vor-Heranholen nicht länger im Widerspruch zu den Datenreferenzen für einen Zugriff auf den Cache, wie das bei bekannten CPU′s der Fall war. Dies bedeutet, daß während der Vor-Heranhol-Stufe die Befehle I1 und I2 direkt aus dem Be fehls-Cache-Speicher herangeholt werden und in die u- und v-Pi pelines geladen werden. In der nächsten Pipeline-Stufe (d. h. D1) werden die Befehle I1 und I2 decodiert und ausgegeben.

BEFEHLSAUSGABE UND PIPELINE-SEQUENZBILDUNG

Wie bereits festgestellt, kann der erfindungsgemäße Mikro prozessor einen oder zwei Befehle in einem einzigen Taktzyklus ausgeben. Um zwei Befehle gleichzeitig auszugeben, müssen je doch beide Befehle des Paares bestimmte Bedingungen erfüllen. D.h., beide Befehle des Paares müssen in einem vordefinierten Teilsatz von Befehlen enthalten und frei von wechselseitigen Abhängigkeiten sein. (Dieser Aspekt der Erfindung soll kurz de taillierter diskutiert werden.)

Der Prozeß der parallelen Ausgabe von zwei Befehlen wird als "Befehls-Paarung" bezeichnet. Wenn Befehle gepaart werden, ist der zur v-Pipeline (zweite Pipeline) ausgegebene Befehl stets der in der Sequenz nächste Befehl nach dem zur u-Pipeline ausgegebenen Befehl. Obwohl die Befehle parallel ausgeführt werden können, ist das Verhalten aus der Sicht des Programmie rers exakt das gleiche, wie bei einer sequentiellen Ausführung (wie sie der Fall bei bekannten Konstruktionen wäre). Die Be fehle schreiten parallel durch die Stufen D2 und EX bis zu ih rem Abschluß in der Stufe WB voran. Es ist klar, daß während ihres Voranschreitens durch die Pipeline die Befehle aus einer beliebigen Anzahl von Gründen zum Stillstand gebracht werden können. Wenn beispielsweise ein Befehl in der u-Pipeline verzö gert wird, dann wird der mit ihm zur v-Pipeline ausgegebene Be fehl (sofern vorhanden) ebenfalls in der gleichen Pipeline- Stufe verzögert. Keinen nachfolgenden Befehlen wird es gestat tet, zu der zum Stillstand gebrachten Stufe einer der beiden Pipelines voranzuschreiten. Wenn ein Befehl in der v-Pipeline zum Stillstand gebracht wird, wird dem mit ihm in die u-Pipe line ausgegebenen Befehl gestattet, voranzuschreiten, während die v-Pipeline stillsteht.

BEFEHLSPAARUNG

Die grundliegende Idee der Erfindung ist, daß das Computer system eine Decodiereinrichtung enthält, welche nur dann zwei Befehle parallel ausgibt, wenn es zwischen ihnen keine Regi sterabhängigkeiten gibt und wenn beide Befehle zu einem Teil satz von Befehlen gehören, der für eine Parallelausführung ge eignet ist. Der Dual-Befehlsdecodierer identifiziert zuerst das Zielregister des ersten Befehls der Programmsequenz. Dieser Be fehl wird der u-Pipeline-Befehl. Dann bestimmt die erfindungs gemäße Einrichtung, ob der u-Pipeline-Befehl in irgendeiner Weise während der Ausführung des zweiten Befehls der Sequenz verwendet wird. Wenn dies nicht der Fall ist (d. h. die beiden Befehle unabhängig voneinander sind), dann werden beide Befehle parallel ausgegeben.

Wie bereits gesagt, enthält die erfindungsgemäße superska lare Maschine zwei parallele Pipelines (u- und v-Pipeline ge nannt), welche eine Parallelität innerhalb des vollständigen Befehlssatzes ausnutzen. Die Befehlseinheit des Mikroprozessors gibt stets den ersten Befehl der Befehlssequenz zur u-Pipeline und den zweiten Befehl zur v-Pipeline aus. Die v-Pipeline bleibt jedesmal dann stehen, wenn der Operand der u-Pipeline nicht zugreifbar ist oder es eine Adreßkollision zwischen den Pipelines gibt. Eine Paarung kann nur zwischen zwei Integer-Be fehlen oder zwei Gleitkomma-Befehlen auftreten.

Grundsätzlich können einfache Befehle solange gepaart wer den, wie zwischen ihnen keine Abhängigkeiten existieren. Um zwei Integer-Befehle gleichzeitig auszugeben, müssen entspre chend dem gegenwärtig bevorzugten Ausführungsbeispiel die fol genden Bedingungen erfüllt sein. Als erstes muß der Befehl zu einem vorgegebenen Teilsatz des x86-Befehlssatzes gehören. Der Befehlsteilsatz zum Paaren von Integer-Befehlen ist in der fol genden Tabelle 1 gezeigt.

Tabelle 1

(Man beachte, daß in Tabelle 1 der Eintrag "alu r, r" eine Klasse von Befehlen bezeichnet, die solche Befehle wie "add", "or", "adc", "sbb", "and", "xor", cmp" enthalten.)

Die Idee der Teilsatz-Bildung ist ein wichtiges Konzept der Erfindung, da sie radikal die Anzahl der möglichen Kombinatio nen verschiedener Befehle reduziert, die während der parallelen Ausführung zu handhaben wären. Das System erkennt, daß es einen kleinen Teilsatz von Befehlen (ungefähr 20) gibt, welche etwa 95% sämtlicher Befehle ausmachen, die durch typische Software ausgeführt werden. Eine Sammlung der am häufigsten verwendeten Befehle ist in der obigen Tabelle 1 aufgelistet. Die Verwendung der Teilsatz-Bildung bedeutet, daß der Dual-Befehlsdecodierer nicht den vollständigen Befehlssatz abzuarbeiten braucht. Im Gegenteil, seine Konstruktion kann vereinfacht werden, um die enthaltenen zeitlichen Relationen bedeutend zu verbessern. Die Verwendung der Teilsatz-Bildung gestattet auch der Maschine, schnell die zwei Befehle zu identifizieren, sie schnell zu de codieren und sie dann parallel auszuführen.

Die nächste wichtige Restriktion bei der parallelen Ausfüh rung von Befehlen ist, daß es keine Registerabhängigkeiten zwi schen den gepaarten Befehlen geben darf. Dies bedeutet, daß das Zielregister des ersten Befehls nicht als Quell-, Ziel-, Basis- oder Index-Register des nächsten Befehls verwendet werden kann. Dieses Erfordernis gilt für die explizite und implizite Verwen dung von Registern für die Befehle. (Es sei angemerkt, daß eine Ausnahme die Paarung der "push"- und "pop"-Befehle darstellt, für welche im gegenwärtig bevorzugten-Ausführungsbeispiel eine spezielle Hardware in der Segmentierungseinheit existiert, wel che den Kellerspeicherzeiger aktualisiert.) Für die Überprüfung der Abhängigkeiten ist die Verwendung eines Teils des 16/32- Bit-Registers gleichbedeutend mit der Verwendung des gesamten Registers. Wenn es eine Speicherabhängigkeit zwischen den Be fehlen der u- und der v-Pipeline gibt, d. h. wenn sowohl die u- als auch die v-Pipeline Speicherzugriffe zur gleichen Bank/Adresse des Daten-Cache-Speichers ausführt, so wird der Zyklus der v-Pipeline im Gleichgewicht gehalten, bis der Zu griff der u-Pipeline beendet ist.

Andere, für die aktuelle Implementierung des Mikroprozes sors i586 charakteristische Restriktionen sind:

- Der Befehl der v-Pipeline darf keinen Präfix haben, mit Ausnahme von OF jcc.
- Die Ende-Bit-Marke im Befehls-Cache-Speicher, die dem er sten Befehl entspricht, muß geeignet gesetzt sein.
- Es sind ausreichend viele Befehlscode-Bytes in den Vor- Heranhole-Puffern vorhanden, um beide Befehle zu decodie ren.
- Ein Befehl in der u- oder v-Pipeline kann entweder eine Verschiebung oder einen Direktoperanden, aber nicht bei des aufweisen.
- adc- und sbb-Befehle sind in der v-Pipeline nicht erlaubt (um Abhängigkeiten vom Übertragsflag der u-Pipeline zu vermeiden).

Im folgenden wird auf Fig. 3 Bezug genommen, in der ein Blockdiagramm eines Dual-Befehlsdecodierers gezeigt ist, daß das breite Konzept der Erfindung veranschaulicht. In Fig. 3 werden die Befehlscodes der u-Pipeline und der v-Pipeline mit den Decodierern 12 bzw. 14 gekoppelt. Zusätzlich zur Kopplung mit dem Decodierer 12 wird der Befehlscode der u-Pipeline außerdem mit einem zusätzlichen Decodierer 13 gekoppelt. Die Decodierer 12, 13 und 14 sind gewöhnliche programmierbare Lo gikfelder (PLAs), welche sämtliche Decodierungen der Befehle ausführen. Beispielsweise erzeugt der Decodierer 12 den ersten Vektor des Mikrocodes für den Befehl der u-Pipeline, während der Decodierer 14 eine ähnliche PLA aufweist, welche dem ersten Vektor des Mikrocodes für den Befehl der v-Pipeline decodiert. Jeder der Mikrocodevektoren weist Felder auf, welche Informa tionen enthalten wie beispielsweise den Ort des Quellregisters, das Zielregister, ALU-Operationsinformationen, Adreßberechnun gen und Verschiebungs-Direktoperanden.

Natürlich ist das zentrale Merkmal der Erfindung, daß der in Fig. 3 dargestellte Dual-Decodierer in der Lage ist, entwe der einen oder zwei Befehle in einem einzigen Zyklus auszuge ben. Da das Ausführungsbeispiel der Erfindung in der Lage sein soll, sämtliche Befehle der x86-Befehlsfamilie zu bearbeiten, ist der Decodierer gemäß Fig. 3 in zwei Abschnitte oder Pfade geteilt. Ein Pfad ist in der Lage, sämtliche Befehle des x86- Befehlssatzes zu handhaben, während der andere Pfad speziell darauf gerichtet ist, einen zweiten Befehl parallel zu handha ben. Mit anderen Worten: die vorliegende Erfindung enthält einen Operationsmodus, bei dem ein Befehl je Taktzyklus ausge führt wird, wenn die Bedingungen für eine superskalare Be triebsweise nicht erfüllt sind.

Im folgenden wird weiter auf Fig. 3 Bezug genommen. Die zwei Pipelines sind sehr ähnlich, ausgenommen der Tatsache, daß die u-Pipeline als standardmäßig vorgegebene Pipeline arbeitet, wenn die superskalaren Bedingungen nicht erfüllt sind. Dies be deutet, daß der Pfad der u-Pipeline in Fig. 3 zur Ausführung sämtlicher x86-Befehle in der Lage ist, wohingegen die v-Pipe line nur auf einen Teilsatz des vollständigen Befehlssatzes ge richtet ist. Zum Beispiel sind die Decodierer 13 und 14 spezi ell konstruiert, um nur einen Teilsatz des vollständigen x86- Befehlssatzes zu decodieren. Auf der anderen Seite ist der De codierer 12 in der Lage, den vollständigen Befehlssatz zu deco dieren, wenn die Maschine standardmäßig einen Befehl pro Takt zyklus vorgibt. In einer Sequenz repräsentiert die u-Pipeline stets den ersten Befehl in der Sequenz und die v-Pipeline stets den zweiten Befehl in der gleichen Sequenz.

Das Überprüfen der Registerabhängigkeit wird durch die Ein heit 19 ausgeführt, welche Ausgangssignale aus den Decodierern 13 und 14 empfängt. Die Ausgangssignale der Decodierer 13 und 14 (welche mit der Einheit 19 gekoppelt sind) enthalten Infor mationen, welche das Zielregister des aktuellen Befehls anzei gen. In der Einheit 19 bestimmt herkömmliche Logik, ob eine Ab hängigkeit im Zielregister für jeden Befehl existiert, indem das Zielregister der u-Pipeline identifiziert wird und sicher gestellt wird, daß es nicht in dem Befehl der v-Pipeline ver wendet wird. In der gleichen Zeit, in der die Registerabhängig keitsüberprüfung ausgeführt wird, findet auch eine Längenkalku lation statt, welche durch die Einheit 17 ausgeführt wird. Mit anderen Worten: die Einheit 17 berechnet die Länge des Befehl spaars, d. h. die Summe der Befehle der u- und der v-Pipeline. Die Einheit 15 berechnet nur die Länge des Befehls der u-Pipe line.

Der Konzeption nach werden die Ausgänge der Einheiten 15 und 17 mit einem Multiplexer 21 gekoppelt, welcher die Länge des Befehls ausgibt. Der Multiplexer 21 wird durch ein Signal ISELTWO gesteuert, welches die von der Registerabhängigkeits- Überprüfungseinheit 19 ausgegebene Basisinformation "gib einen/zwei aus" zur Verfügung stellt. Das Signal "ISELTWO" ist das gleiche Signal, das verwendet wird, um durch Steuerung des Multiplexers 22 den Befehl der v-Pipeline bedingt auszuführen. Wenn die Registerabhängigkeitsüberprüfungseinheit 19 fest stellt, daß nur ein Befehl ausgeführt werden kann, wird der Multiplexer 21 angesteuert, so daß die Befehlslänge gleich der jeweiligen Länge des Vektors der u-Pipeline ist. Wenn nur ein Befehl ausgegeben wird, wählt das Steuersignal ISELTWO in der v-Pipeline keine Operation ("nop") als durch den Multiplexer 22 auszugebende Operation aus. In einem solchen Fall kommt die Länge allein aus der u-Pipeline.

Wenn es keine Registerabhängigkeit gibt, können zwei Be fehle parallel ausgeführt werden. Für diese Bedingung wird die durch den Multiplexer 21 ausgegebene Befehlslänge so ausge wählt, daß sie gleich der berechneten Länge der Befehle der u- und v-Pipeline zusammen ist (d. h. der Ausgabe von Einheit 17). Unter dieser Bedingung sieht die Maschine das Paar im wesentli chen als einen langen Befehl. Wenn zwei Befehle parallel ausge führt werden, leitet der Multiplexer 22 einfach den Mikrocode vektor der u-Pipeline zum Ausgang des Multiplexers 22 durch. Die Informationen an den Ausgängen der Multiplexer 21 und 22 werden mit der Ausführungseinheit des Mikroprozessors gekop pelt. Die Ausführungseinheit enthält normalerweise die Adreßbe rechnungseinheit, die arithmetisch-logische Einheit (ALU), die Datenpfade, die Registerdateien usw..

Es sei betont, daß sämtliche durch den Dual-Befehlsdecodie rer gemäß Fig. 3 ausgeführten Operationen innerhalb eines Takt zyklus erfolgen. D.h., daß innerhalb eines einzigen Taktzyklus die Befehlscodes an die Eingänge des oberen Decodierers gekop pelt und die Vektoren von den Multiplexeinheiten zur Verfügung gestellt werden.

PAARBILDUNGSBEISPIELE

Um die Erfindung besser verstehen und einschätzen zu kön nen, sollen folgende Beispiele von Befehlssequenzen betrachtet werden. Diese Sequenzen veranschaulichen auch die bereits erör terten wichtigen Paarungsregeln. (Zu beachten ist, daß in dem vorgesehenen Format der Zieloperand auf der linken Seite ist.) Es wird das folgende Paar von einfachen Befehlen betrach tet.
mov edx, (ebx)
add esi, 4;
Bei diesem Beispiel ist der erste Befehl in der Sequenz ein "mov"-Befehl, welcher durch die u-Pipeline verarbeitet wird. Das Zielregister des Befehls der u-Pipeline ist edx. Da edx in keiner Weise durch den Befehl "add" der v-Pipeline verwendet wird und darüberhinaus beide Befehle innerhalb des Befehlsteil satzes (siehe Tabelle 1) liegen, kann der Decodierer gemäß Fig. 3 beide parallel ausgeben.

Während der Ausführung ist der Befehlscode des ersten Be fehls (d. h. "mov") der Befehlscode der u-Pipeline, wohingegen "add" der Befehlscode der v-Pipeline ist. Der obere Decodierer 12 decodiert den Befehl "mov" und erzeugt einen u-Pipeline-Vek tor, welcher spezifiziert, daß das Zielregister edx ist. Der Decodierer spezifiziert außerdem, daß ein Speicherlesen erfor derlich ist, wobei die Adresse durch edx spezifiziert ist. Der Decodierer 12 identifiziert auch die Komponenten der Adreßbe rechnung und stellt fest, daß es ein Ein-Vektor-Makrobefehl ist. Zur gleichen Zeit sieht der Teilsatz-Decodierer 13 nach, ob "mov" innerhalb des Teilsatzes der Befehle liegt, die für eine Doppelausgabe geeignet sind. Der Decodierer 13 identifi ziert außerdem das Zielregister edx, welches durch die Regi sterabhängigkeitsüberprüfungseinheit 19 verwendet wird. Die Einheit 19 überprüft edx gegenüber esi und schlußfolgert, daß es sich nicht um die gleichen Register handelt.

Auf der Seite der v-Pipeline sieht der Decodierer 14 auf add esi und identifiziert esi als Zielregister (in diesem Bei spiel ist esi außerdem die Quelle). Der Decodierer 14 identifi ziert auch die Direktoperandenkomponente (d. h. 4), und die Ein heit 17 berechnet dann die Länge der zwei Befehle. Der "add"- Befehl rückt dann in der v-Pipeline voran. Da beide Befehle einfache Befehle sind und es keine Abhängigkeiten zwischen ih nen gibt, können diese beiden Befehle folglich gepaart werden.

Als nächstes soll das folgende Paarungsbeispiel betrachtet werden.
mov edx (ebx);
add edx, 4;
In diesem Beispiel ist das Zielregister des u-Pipeline-Be fehls edx. Da dieses Zielregister außerdem im Befehl der v-Pi peline verwendet wird, stellt die Abhängigkeitsüberprüfungslo gik fest, daß beide Befehle nicht parallel ausgegeben werden dürfen. In diesem Fall wird der Befehl der u-Pipeline zuerst ausgegeben, während der Pfad der v-Pipeline untätig bleibt (d. h., die v-Pipeline gibt ein "nop" aus). Im folgenden Taktzy klus wird der "add"-Befehl in der u-Pipeline ausgeführt. Es ist klar, daß der während des nächsten Taktzyklus in der u-Pipeline ausgegebene add-Befehl gegebenenfalls parallel zu irgendeinem in der Sequenz folgenden Befehl ausgegeben werden kann. In dem Fall, daß beide Befehle parallel ausgegeben werden, wird der nächste Befehl in der Sequenz (der dem "add"-Befehl folgt) in der v-Pipeline ausgegeben.

Jetzt soll das folgende Beispiel betrachtet werden.
lds (ebx);
push eax;
Bei diesem Beispiel ist der Ladebefehl "lds" nicht in dem Teilsatz von Befehlen enthalten, die für eine parallele Ausfüh rung geeignet sind (siehe Tabelle 1). Folglich wird der lds-Be fehl in der u-Pipeline ausgegeben, und in dem folgenden Taktzy klus wird der "push"-Befehl in der u-Pipeline ausgegeben. In diesem Fall identifiziert der obere Decodierer 13 der u-Pipe line den lds-Befehl als nicht dem geeigneten Teilsatz angehö rig. Dies ist der Fall, obwohl es keine Abhängigkeiten zwischen den beiden Befehlen gibt. Es ist wichtig zu beachten, daß der Befehlscode der v-Pipeline zum Befehlscode der u-Pipeline für den nächsten Taktzyklus wird, wenn zwei Befehle nicht parallel ausgegeben werden können. Der in der Sequenz nächste Befehl wird dann der v-Pipeline-Befehlscode.

Es ist klar, daß die spezielle Befehlsliste in dem Teilsatz von x86-Befehlen des gegenwärtig bevorzugten Ausführungsbei spiels in anderen alternativen Ausführungsbeispielen variieren kann. Gleichzeitig können verschiedene Ausführungsbeispiele eine Paarung von bestimmten Befehlen gestatten, für welche es eine implizite Abhängigkeit gibt, sofern eine spezielle Hard ware existiert, die ein paralleles Ausgeben und Ausführen bei der Befehle gestattet. Beispielsweise enthält das gegenwärtig bevorzugte Ausführungsbeispiel eine spezielle Hardware, welche es ihm gestattet, die folgenden Befehle parallel auszuführen:
cmp edx, 0;
jnz loop.

Im obigen Beispiel enthält der Mikroprozessor spezielle Hardware, die ein paralleles Ausgeben und Ausführen dieser Be fehle gestattet, obwohl es eine implizite Abhängigkeit beim z- Flag gibt.

Beim Paaren von zwei Gleitkomma-Befehlen gelten die letzten drei der für die Integer-Befehlspaarung zusammen mit der Spei cherabhängigkeitsprüfung aufgelisteten Bedingungen im aktuellen Ausführungsbeispiel nicht. Der Grund dafür ist, daß Gleitkomma- Befehle keine Direktoperanden-Bytes haben. Auch ist eine Regi sterabhängigkeit zwischen den u-Pipeline-Befehlen und dem fxch- Befehl in der v-Pipeline erlaubt. Da fxch ein Register-Regi ster-Befehl ist, findet die Speicherabhängigkeit keine Anwen dung. Der Teilsatz von Gleitkommabefehlen, die in beiden Pipe lines gepaart werden können, ist für das gegenwärtig bevorzugte Ausführungsbeispiel unten in Tabelle 2 aufgelistet. Sämtliche Befehle sind Ein-Vektor-Befehle.

Tabelle 2

Im Rahmen des Erfindungsgedankens sind zahlreiche Alterna tiven und Modifikationen denkbar. Obwohl in dieser Beschreibung ein bestimmter Satz von zu erfüllenden Bindungen und Regeln ge zeigt wurde, können bei anderen Ausführungsbeispielen andere Bedingungen gelten.

Claims

1. Computersystem, das zwei Computerbefehle parallel aus führen kann, gekennzeichnet durch:
erste und zweite Pipeline-Mittel zum Ausführen von Compu terbefehlen, wobei die ersten Pipeline-Mittel zum Ausführen ei nes aus einem vorgegebenen Befehlssatz ausgegebenen beliebigen Befehls und die zweiten Pipeline-Mittel zum Ausführen nur eines Teilsatzes von Befehlen aus dem vorgegebenen Befehlssatz betä tigbar sind;
Abhängigkeitsüberprüfungsmittel (19), welche das Zielregi ster des ersten Befehls in einer Befehlssequenz identifizieren, ferner feststellen, ob das Zielregister während der Ausführung des zweiten Befehls in der Sequenz verwendet wird, und anzei gen, daß eine erste Bedingung erfüllt ist, wenn das Zielregi ster während der Ausführung des zweiten Befehls nicht verwendet wird;
Mittel zum Feststellen, ob sich der erste und der zweite Befehl in der Sequenz innerhalb des Teilsatzes befinden, und zum Anzeigen, daß eine zweite Bedingung erfüllt ist, wenn sich sowohl der erste als auch der zweite Befehl innerhalb des Teil satzes befinden; und
Befehlspaarungsmittel zum parallelen Ausgeben des ersten und des zweiten Befehls an die ersten und zweiten Pipeline-Mit tel, wenn die erste und die zweite Bedingung erfüllt sind.

2. Computersystem nach Anspruch 1, dadurch gekennzeichnet, daß der erste und der zweite Befehl in einem einzigen Taktzy klus ausgegeben werden, wenn die erste und die zweite Bedingung erfüllt sind.

3. Computersystem nach Anspruch 1 oder 2, dadurch gekenn zeichnet, daß die Befehlspaarungsmittel nur den ersten Befehl in der Sequenz an die ersten Pipeline-Mittel ausgeben, wenn entweder die erste oder die zweite Bedingung nicht erfüllt ist.

4. Computersystem nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß ferner Mittel zum Berechnen der kombinier ten Länge des ersten und des zweiten Befehls vorgesehen sind.

5. Computersystem mit einer CPU zum Abarbeiten eines Pro gramms, das aus einer Sequenz von aus einem Befehlssatz ausge wählten Befehlen besteht, und einer Ausführungsmaschine zum Ausführen der Befehle, gekennzeichnet durch:
erste und zweite Pipeline-Mittel zum Ausführen der Befehls sequenz, wobei sich gleichzeitig mehrere Befehle überlappend in Ausführung befinden;
Decodiermittel (12, 13, 14) zum Decodieren eines Befehls paars aus der Sequenz, um erste und zweite Mikrocodevektoren zum Ausführen in den ersten bzw. zweiten Pipeline-Mitteln zu erzeugen;
wobei die Decodiermittel (12, 13, 14) ein Mittel enthalten, das feststellt, ob der erste und zweite Befehl innerhalb eines vorgegebenen Teilsatzes des Befehlssatzes liegen;
Berechnungsmittel (15, 17) zum Berechnen der Länge des er sten Befehls und der kombinierten Länge des ersten und des zweiten Befehls;
Mittel (19) zum Feststellen von Registerabhängigkeiten zwi schen den beiden Befehlen und zum Erzeugen eines Signals (ISELTWO) bei fehlender Abhängigkeit; und
Multiplexmittel (21, 22) zum Ausgeben des ersten und zwei ten Mikrocodevektors und der kombinierten Länge an die Ausfüh rungsmaschine, wenn das Signal (ISELTWO) empfangen wird und der erste und der zweite Befehl sich innerhalb des vorgegebenen Teilsatzes befinden, wobei die Multiplexmittel anderenfalls den ersten Mikrocodebefehl in besagter Länge ausgeben.

6. Computersystem nach Anspruch 5, dadurch gekennzeichnet, daß der erste und der zweite Befehl innerhalb eines Taktzyklus des Computersystems ausgeführt werden, wenn das Signal (ISELTWO) von den Multiplexmittel (21, 22) empfangen wird und der erste und der zweite Befehl sich innerhalb des vorgegebenen Teilsatzes befinden.

7. Computersystem nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß der erste und der zweite Befehl ganzzahlige Befehle oder Gleitkomma-Befehle sind.