EP1116172A2

EP1116172A2 - Verfahren und anordnung zur ermittlung einer folge von aktionen für ein system, welches zustände aufweist, wobei ein zustandsübergang zwischen zwei zuständen aufgrund einer aktion erfolgt

Info

Publication number: EP1116172A2
Application number: EP99953714A
Authority: EP
Inventors: Ralf Neuneier; Oliver Mihatsch
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1998-09-23
Filing date: 1999-09-08
Publication date: 2001-07-18
Also published as: US7047224B1; JP2002525763A; WO2000017811A2; WO2000017811A3

Abstract

Die Ermittlung der Folge von Aktionen erfolgt derart, dass eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimierungsfunktion optimiert ist. Die Optimierungsfunktion enthält einen variablen Parameter, mit dem ein Risiko einstellbar ist, welches Risiko die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist.

Description

Beschreibung

Verfahren und Anordnung zur Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zu- Standsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt

Die Erfindung betrifft ein Verfahren sowie eine Anordnung zur Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt.

Ein solches Verfahren und eine solche Anordnung sind aus [1] bekannt .

In [1] ist als Beispiel für ein solches System, welches Zustände aufweist, ein Finanzmarkt beschrieben.

Das System wird als ein Markov-Entscheidungsproblem beschrie- ben (Markov-Decision-Problem, MDP) . Ein System, welches als Markov-Entscheidungsproblem beschrieben werden kann, ist in seiner Struktur in Fig.2 dargestellt.

Zu einem Zeitpunkt t befindet sich das System 201 in einem Zustand x^. Der Zustand x^ ist für einen Beobachter des Systems beobachtbar. Aufgrund einer Aktion a-_j- aus einer Menge in dem Zustand Xt möglicher Aktionen, a^ e A(x^) geht das System mit einer gewissen Wahrscheinlichkeit in einen Folgezustand xt+i zu einem Folgezeitpunkt t+1 über.

Dies ist durch eine Schleife in Fig.2 symbolisch dargestellt. Ein Beobachter 200 nimmt beobachtbare Größen über den Zustand x-(- wahr 202 und trifft eine Entscheidung über eine Aktion 203, mit der er auf das System 201 einwirkt. Das System 201 unterliegt üblicherweise einer Störung 205.

Ferner erhält -der Beobachter 200 einen Gewinn r 204 ^rt = ^r(^xt ' ^af ^xt + l) ^{e 9}* ' ⁽ D

der von der Aktion a-t 203 und dem ursprünglichen Zustand x^- zu dem Zeitpunkt t sowie dem Folgezustand x +1 des Systems zu dem Folgezeitpunkt t+1 abhängt.

Der Gewinn r-^ kann einen positiven oder negativen skalaren Wert annehmen, je nachdem, ob die Entscheidung zu einer hin- sichtlich eines vorgebbaren Kriteriums positiven oder negativen 'Systementwicklung führt, in [1] zu einer Kapitalvermehrung oder zu einem Verlust.

In einem weiteren Zeitschritt entscheidet sich der Beobachter 200 des Systems 201 aufgrund der beobachtbaren Größen 202, 204 des Folgezustandes xt+i für eine neue Aktion a-^+i usw.

Eine Folge von

Zustand: ^xt e X

Aktion: ^at e ^A(^xt)

Folgezustand: ^xt + l € X

Gewinn ^rt = r(x_t, a_t, ^xt+l) e m

usw. beschreibt eine Trajektorie des Systems, die durch ein Performanzkriterium, das die einzelnen Gewinne r-^ über die Zeitpunkte t akkumuliert, bewertet wird. Bei einem Markov- Entscheidungsproblem wird vereinfachend angenommen, daß der Zustand x-^ und die Aktion a-t- alle Informationen enthalten, um eine Übergangswahrscheinlichkeit p(xt + l|-) des Systems von dem

Zustand x-^ zu dem Folgezustand xt+l zu beschreiben.

Formal bedeutet dies:

p(^xt + l|^xt'^κ > ^x0' ^at'^κ > ^aθ) = p(^xt + l|^xt' ^at)- (2) Mit p(xt +l|^xt' ^at) ^wi^r eine Übergangswahrscheinlichkeit für den Folgezustand xt+l bei gegebenem Zustand x und gegebener Aktion at bezeichnet.

Bei einem Markov-Entscheidungsproblem hängen also zukünftige Zustände des Systems 201 nicht von Zuständen und Aktionen ab, die weiter als einen Zeitschritt in der Vergangenheit liegen.

Zusammenfassend sind im weiteren die Charakteristika eines Markov-Entscheidungsproblems dargestellt:

X Menge der möglichen Zustände des Systems, z.B. X = <R^m,

^A(^xt) Menge der möglichen Aktionen in dem Zustand r(x-)-, a^-, xt +l) Gewinn mit Erwartungswert R(xt, at) .

Das Ziel ist es, ausgehend von beobachtbaren Größen, den im weiteren als Trainingsdaten bezeichneten Größen, eine Strate- gie zu ermitteln, d.h. eine Folge von Funktionen

^π = {^μo' μi'^κ ι I^T}' O⁾

welche zu jedem Zeitpunkt t jeden Zustand in eine Handlungs- Vorschrift, d.h. Aktion

μ_t(x_t) = ^at (4)

abbilden.

Eine solche Strategie wird durch eine Optimierungsfunktion bewertet. Die Optimierungsfunktion gibt den Erwartungswert, der über die Zeit akkumulierten Gewinne bei einer gegebenen Strategie π und einem Startzustand xn an.

Als ein Beispiel eines Verfahrens des approximativen dynamischen Programmierens ist in [1] das sogenannte Q- Lernverfahren beschrieben.

Eine optimale Bewertungsfunktion V* (x) ist definiert durch

V (x) = max V^π(x) Vx e X (5) π

mit

V^π(x) = μt_* ^xt +l)| 0 = ^x (6)

wobei mit γ ein vorgebbarer Verringerungsfaktor bezeichnet wird, der gemäß folgender Vorschrift gebildet wird:

γ = (7)

1 + z

z e 91^" (8)

Im Rahmen des Q-Lernverfahrens wird für jedes Paar (Zustand xt, Aktion at) eine Q-Bewertungsfunktion Q (xt, at) gemäß folgender Vorschrift gebildet:

Q*(x_t, a_t = ∑ p(^χt + ι|^χt'^at) ^{• r}t +

X :e€XX

(9) Aufgrund jeweils des Tupels (xt, xt +l' ^at' ^rt) werden die Q- Werte Q*(x,a) in der k+1 ten Iteration gemäß folgender Lernregel mit einer vorgegebenen Lernrate η^ gemäß folgender Vorschrift adaptiert:

^Qk+l(^xt' t) = i¹ - ηk)θk(^xt' t) + ηjc + Y • ⁽10⁾

Üblicherweise werden die sogenannten Q-Werte Q*(x,a) durch jeweils einen Funktionsapproximator, beispielsweise ein neuronales Netz oder auch einen Polynomklassifikator, mit einem Gewichtsvektor w , der Gewichte des Funktionsapproximators enthält, für verschiedene Aktionen a approximiert.

Unter einem Funktionsapproximator ist beispielsweise ein neuronales Netz, ein Polynomklassifikator oder auch eine Kombination eines neuronalen Netzes mit einem Polynomklassifikator zu verstehen.

Es gilt also:

Q^*(x, a) _* QX; w^a) . (11)

Änderungen der Gewichte in dem Gewichtsvektor w basieren auf einer temporären Differenz dt, die gemäß folgender Vorschrift gebildet wird:

^dt^: = ^r(^xt ^at' ^xt +l) + Y ^max +i^{; w}k) - ^Q(xf' ^wk^fc J ⁽12⁾

Es ergibt sich für das Q-Lernverfahren unter Verwendung eines neuronalen Netzes folgende Adaptionsvorschrift für die Gewichte des neuronalen Netzes, welche Gewichte in dem Ge- a wichtsvektor w enthalten sind: w ^at ₌ , at k + 1 = w, + η_k ^• d_t ^• VQ x_{t i} w ^at ( 13 )

Unter Verwendung der Trainingsdaten, die als Zeitreihenwerte Informationen über vorangegangene Kursverläufe eines Finanz- marktes beschreiben, wird das neuronale Netz, welches das System Finanzmarkt, wie in [1] beschrieben, darstellt, trainiert .

Ein weiteres Verfahren der approximativen dynamischen Pro- grammierung, das sogenannte TD (λ) -Lernverfahren, ist aus [2] bekannt und wird im Zusammenhang mit einem Ausführungsbeispiel näher erläutert.

Ferner ist aus [3] bekannt, welches Risiko mit einer Strate- gie π und einem Ausgangszustand x verbunden ist. Ein Verfahren zur Risikovermeidung ist ebenfalls aus [3] bekannt.

Bei dem aus [3] bekannten Verfahren wird folgende Optimierungsfunktion, welche auch als erweiterte Q-Funktion Q^π(^xt' ^at) bezeichnet wird, verwendet:

maximiere

Q^π(^xt' ^at = r(x_t, a_t, x_{t +}l) + π(x_k), x_{k +}ι)

(14)

Die erweiterte Q-Funktion Q^π(xt, t) beschreibt den schlechtesten Fall, falls in dem Zustand xt die Aktion at ausgeführt wird und die Strategie π daraufhin verfolgt wird.

Die Optimierungsfunktion Q^π(x_f ^at) f^ür Q*(x_t, a_t ): = max Q^π(x_t , a_t) π eil

( 15 )-

ist gegeben, durch folgende Vorschrift:

^Q*(^xt' ^at) = : i β )

Ein erheblicher Nachteil dieser Vorgehensweise ist darin zu sehen, daß nur der schlechteste Fall im Rahmen der Strategie- findung berücksichtigt wird. Dies spiegelt jedoch die Anforderungen verschiedenster technischer Systeme nur in unzureichendem Ausmaß wieder.

Aus [4] ist es ferner bekannt, eine Zugangskontrolle für ein Kommunikationsnetz sowie das Routing innerhalb des Kommunikationsnetzes als ein Problem der dynamischen Programmierung zu formulieren.

Somit liegt der Erfindung das Problem zugrunde, ein Verfahren sowie eine Anordnung zur Ermittlung einer Folge von Aktionen für ein System anzugeben, bei dem bzw. bei der eine erhöhte Flexibilität bei der Ermittlung der Strategie erreicht wird.

Das Problem wird durch das Verfahren sowie durch die Anord- nung gemäß den Merkmalen der unabhängigen Patentansprüche gelöst.

Bei einem Verfahren zur rechnergestützten Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt, erfolgt die Ermittlung der Folge von Aktionen derart, daß eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimierungsfunktion optimiert ist, wobei die Optimierungs- funktion einen variablen Parameter enthält, mit dem ein Risiko, welches die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist, einstellbar ist.

Eine Anordnung zur Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt, weist einen Prozessor auf, der derart eingerichtet ist, daß die Ermittlung der Folge von Aktionen derart erfolgen kann, daß eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimie- rungsfunktion optimiert ist, wobei die Optimierungsfunktion einen variablen Parameter enthält, mit dem ein Risiko, wel- ches die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist, einstellbar ist.

Durch die Erfindung wird es erstmals möglich, in frei vorgebbarer Genauigkeit im Rahmen einer Strategiefindung für eine möglichen Regelung oder Steuerung, allgemein einer Beeinflussung des Systems, ein Verfahren zur Ermittlung einer Folge von Aktionen anzugeben.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Die im weiteren beschriebenen Weiterbildungen gelten sowohl für das Verfahren als auch die Anordnung, wobei bei der Weiterbildung der Anordnung jeweils der Prozessor derart einge- richtet ist, daß die Weiterbildung realisierbar ist.

In einer bevorzugten Ausgestaltung wird zur Ermittlung ein Verfahren des approximativen dynamischen Programmierens eingesetzt, beispielsweise ein auf dem Q-Lernen basierendes Ver- fahren oder auch ein auf dem TD(λ) -Lernen basierendes Verfahren. Im Rahmen des Q-Lernens wird bevorzugt die Optimierungsfunktion OFQ gemäß folgender Vorschrift gebildet:

OFQ = Q(X; w^a) ,

wobei mit

• x ein Zustand in einem Zustandsraum X,

• a eine Aktion aus einem Aktionsraum A, aa • ww ddiiee zzuurr AAkkttion a gehörigen Gewichte eines Funktions- approximators

bezeichnet wird/werden.

Im Rahmen des Q-Lernens wird zur Ermittlung der optimalen Ge- a wichte w des Funktionsapproximators folgender Adaptionsschritt ausgeführt:

^wt +l = ^wt^t + t ^• K^K(d_t) ^• VQx_t; w^ J

mit der Abkürzung

^dt = ^r(^xt> ^at' ^xt +l) + Y ^{max Qx}t +1' t) - θxt. w^StJ a€A

wobei mit

• x , Xt_+l jeweils ein Zustand in dem Zustandsraum X,

• at eine Aktion aus einem Aktionsraum A,

• γ ein vorgebbarer Verringerungsfaktor, • w_t ^at der zur Aktion at gehörige Gewichtsvektor vor dem Adaptionsschritt,

• _t ^at₊-_j_ der zur Aktion at gehörige Gewichtsvektor nach dem

Adaptionsschritt,

• η (t = 1, ". . . ) eine vorgebbare Schrittweitenfolge, • K € [-1; 1] ein Risikokontrollparameter,

• ^κ eine Risikokontrollfunktion ^κ(ξ) = (l - κsign(ξ))ξ,

• VQ(-;-) die Ableitung des Funktionsapproximators nach seinen Gewichten, r(xt, t, ^χt+l) ^eiⁿ Gewinn beim Zustandsübergang von dem Zustand xt nach dem Folgezustand xt+l/

bezeichnet wird/werden.

Im Rahmen des TD (λ) -Lernverfahrens wird die Optimierungsfunktion bevorzugt gemäß folgender Vorschrift gebildet:

wobei mit

• x ein Zustand in einem Zustandsraum X,

• a eine Aktion aus einem Aktionsraum A,

• w die Gewichte eines Funktionsapproximators

bezeichnet wird/werden.

Im Rahmen des TD (λ) -Lernens wird zur Ermittlung der optimalen Gewichte w des Funktionsapproximators folgender Adaptions- schritt ausgeführt:

w_{t +}l = w_t + η_t ^{■ κ}(d_t) ^• z_t

mit den Abkürzungen

^dt = ψt- ^at' ^χt+ι) + Y^J(^xt+ι^{; w}t) - ^j(xf" w_t),

z_t = λ ^• γ • z_t_ι + Vj(x_t; w_t),

z_ι = 0, wobei mit

xt, xt+l jeweils ein Zustand in dem Zustandsraum X, at eine Aktion aus einem Aktionsraum A, γ ein vorgebbarer Verringerungsfaktor, wt der Gewichtsvektor vor dem Adaptionsschritt, wt+i der Gewichtsvektor nach dem Adaptionsschritt, ηt (t = 1, ...) eine vorgebbare Schrittweitenfolge, K e [-1; 1] ein Risikokontrollparameter, ^κ eine Risikokontrollfunktion K^K(ξ) = (l - κsign(ξ))ξ, Vj(V) die Ableitung des Funktionsapproximators nach seinen Gewichten, r(xt, at, xt +l) ^elⁿ Gewinn beim Zustandsübergang von dem Zustand x nach dem Folgezustand xt+l,

bezeichnet wird/werden.

Das System ist bevorzugt ein technisches System, von dem vor der Ermittlung Meßgrößen gemessen werden, die bei der Ermitt- lung der Folge von Aktionen verwendet werden.

Unter Verwendung der ermittelten Folge von Aktionen kann das technische System gesteuert oder auch geregelt werden.

Bevorzugt wird das System als ein Markov-Entscheidungsproblem modelliert.

Das Verfahren oder die Anordnung werden bevorzugt in einem Verkehrsleitsystem oder in einem Kommunikationssystem einge- setzt, wobei in dem Kommunikationssystem die Folge von Aktionen zur Durchführung einer Zugangskontrolle oder eines Routings, also einer Pfadvergabe, in einem Kommunikationsnetz eingesetzt wird.

Ferner kann das System ein Finanzmarkt sein, welcher durch ein Markov-Entscheidungsproblem modelliert wird und wobei der Verlauf des Finanzmarkts, beispielsweise ein Verlauf eines Aktienindex oder auch ein Kursverlauf eines Devisenmarktes unter Verwendung der Verfahren bzw. der Anordnung analysiert und in den Markt entsprechend der Folge ermittelter Aktionen eingegriffen werden kann.

Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden im weiteren näher erläutert.

Es zeigen

Figur 1 ein Ablaufdiagramm, in dem einzelne Verfahrensschritte des ersten Ausführungsbeispiels dargestellt sind;

Figur 2 eine Skizze eines Systems, welches als Markov- Entscheidungsproblem modelliert werden kann;

Figur 3 eine Skizze eines Kommunikationsnetzes, bei dem in einer Vermittlungseinheit eine Zugangskontrolle durchgeführt wird;

Figur 4 eine symbolische Skizze eines Funktionsapproximators, mit dem ein Verfahren des approximativen dynamischen Programmierens realisiert wird;

Figur 5 eine weitere Skizze von mehreren Funktionsapproxi- matoren, mit dem ein approximatives dynamisches Programmieren implementiert wird;

Figur 6 eine Skizze eines Verkehrsleitsystems, welches gemäß einem Ausführungsbeispiel geregelt wird. Erstes Ausführungsbeispiel: Zugangskontrolle und Routing.

Fig.3 zeigt ein Kommunikationsnetz 300, welches eine Vielzahl von Vermittlungseinheiten 301a, 301b, ..., 301i, ... 301n aufweist, die über Verbindungen 302a, 302b, 302j, ... 302m miteinander verbunden sind.

Ferner ist ein erstes Endgerät 303 mit einer ersten Vermittlungseinheit 301a verbunden. Von dem ersten Endgerät 303 wird eine Anforderungsnachricht 304 an die erste Vermittlungseinheit 301a gesendet, mit der eine Reservierung einer vorgegebenen Bandbreite innerhalb des Kommunikationsnetzes 300 zur Übertragung von Daten (Videodaten, textuelle Daten) angefordert wird.

In der ersten Vermittlungseinheit 301a wird gemäß einer im weiteren beschriebenen Strategie ermittelt, ob die angeforderte Bandbreite in dem Kommunikationsnetz 300 auf einer angegebenen, angeforderten Verbindung verfügbar ist (Schritt 305) .

Ist dies nicht der Fall, so wird die Anforderung zurückgewiesen (Schritt 306) .

Ist ausreichend Bandbreite verfügbar, so wird in einem weiteren Überprüfungsschritt (Schritt 307) überprüft, ob die Bandbreite reserviert werden kann.

Ist dies nicht der Fall, so wird die Anforderung zurückgewie- sen (Schritt 308) .

Sonst wird von der ersten Vermittlungseinheit 301a eine Route von der ersten Vermittlungseinheit 301a über weitere Vermittlungseinheiten 301i zu einem zweiten Endgerät 309, mit dem das erste Endgerät 303 kommunizieren will, ausgewählt und es wird eine Verbindung initialisiert (Schritt 310) . Im folgenden wird von einem Kommunikationsnetz 300 ausgegangen, welches einen Satz von Vermittlungseinheiten

N= {l,K , n,K , N} (17) und einen Satz von physikalischen Verbindungen

L= {l,K ,1,K ,L}, (18)

umfaßt, wobei eine physikalische Verbindung 1 eine Kapazität von B(l) Bandbreiteneinheiten aufweist.

Es sind ein Satz

M= {l, K ,m, K , M} (19)

verschiedener Diensttypen m verfügbar, wobei ein Diensttyp m durch

• einen Bandbreitenbedarf b (m) ,

• eine durchschnittliche Verbindungsdauer - , und v(m) • einen Gewinn c (m) , den man dann erhält, wenn eine Verbindungsanforderung des entsprechenden Diensttyps m akzeptiert wird, charakterisiert ist.

Der Gewinn c (m) ist gegeben durch die Menge des Geldes, die ein Netzwerkbetreiber des Kommunikationsnetzes 300 einem Teilnehmer für eine Verbindung des Diensttyps in Rechnung stellt. Anschaulich spiegelt der Gewinn c (m) unterschiedliche, von dem Netzbetreiber vorgebbare Prioritäten wider, die er mit verschiedenen Diensten assoziiert.

Eine physikalischen Verbindung 1 kann gleichzeitig eine beliebige Kombination von Kommunikationsverbindungen bereitstellen, solange die genutzte Bandbreite der Kommunikations- Verbindungen nicht die insgesamt verfügbare Bandbreite der physikalischen Verbindung übersteigt. Wird eine neue Kommunikationsverbindung des Typs m angefordert zwischen einem ersten Knoten i und einem zweiten Knoten j (Endgeräte werden auch als Knoten bezeichnet) , so kann die angeforderte Kommunikationsverbindung, wie oben dargestellt, entweder akzeptiert oder zurückgewiesen werden.

Wird die Kommunikationsverbindungen akzeptiert, so wird eine Route aus einer Menge vorgegebener Routen ausgewählt. Diese Auswahl wird als Routing bezeichnet. Im Rahmen der Kommunikationsverbindung vom Typ m werden b(m) Bandbreiteneinheiten für jede physikalische Verbindung entlang der ausgewählten Route für die Verbindungsdauer benutzt.

Somit kann im Rahmen der Zugangskontrolle (Call-Admission- Control) eine Route innerhalb des Kommunikationsnetzes 300 nur ausgewählt werden, wenn die ausgewählte Route ausreichend Bandbreite zur Verfügung hat.

Ziel der Zugangskontrolle und des Routings ist es, einen langfristigen Gewinn, der durch Akzeptanz der angeforderten Verbindungen erhalten wird, zu maximieren.

Das technische System Kommunikationsnetz 300 befindet sich zu einem Zeitpunkt t in einem Zustand xt, welcher durch eine Liste von Routen über bestehende Verbindungen beschrieben wird, durch welche Listen angezeigt ist, wie viele Verbindungen welchen Diensttyps zu dem Zeitpunkt t die jeweilige Route verwenden.

Ereignisse w, durch die ein Zustand xt in einen Folgezustand xt+i überführt werden könnte, sind das Ankommen neuer Verbin- dungsanforderungsnachrichten oder auch das Beenden einer in dem Kommunikationsnetz 300 bestehenden Verbindung.

Eine Aktion at zu einem Zeitpunkt t aufgrund einer Verbindungsanforderung ist in diesem Ausführungsbeispiel die Ent- scheidung, ob eine Verbindungsanforderung akzeptiert oder zurückgewiesen werden soll und, falls die Verbindung akzeptiert wird, die Auswahl der Route durch das Kommunikationsnetz 300.

Ziel ist die Ermittlung einer Folge von Aktionen, d.h. anschaulich das Lernen einer Strategie mit Aktionen zu einem Zustand x zu bestimmen derart, daß folgende Vorschrift maxi- miert wird:

^{• g}(xt_k'^ωk' t_k 0) (20)

wobei mit

• E{.} ein Erwartungswert, • t_k ein Zeitpunkt, zu dem ein k-tes Ereignis erfolgt,

• fxt_b- ' ^ωk' ^at ) der Gewinn, der mit dem k-ten Ereignis verbunden ist, und

• ß ein Verringerungsfaktor, der einen sofortigen Gewinn wertvoller bewertet als ein Gewinn in ferner in der Zukunft liegenden Zeitpunkten,

bezeichnet wird.

Unterschiedliche Realisierungen einer Strategie führen übli- cherweise zu unterschiedlichen Gesamtgewinnen G:

co G = ∑e-^k • g(xt_k.ω_k, a_tk). (21) k=0

Ziel ist die Maximierung des Erwartungswerts des Gesamtgewinns G gemäß folgender Vorschrift J:

wobei ein Risiko, daß der Gesamtgewinn G einer speziellen Realisierung einer Zugangskontrolle und einer Routing- Strategie unter den Erwartungswert sinkt, einstellbar ist.

Zur Durchführung der Zugriffskontrolle sowie zum Routing wird das TD (λ) -Lernverfahren eingesetzt.

Es wird folgende Zielfunktion im Rahmen dieses Ausführungsbeispiels eingesetzt:

^J*(^xt) = ^Eτ ^e ß^τ E_f max g(x_t,ω_t, a) + J^*(x_t + l) (23) l ^ι laeAl J

wobei mit

• A ein Aktionsraum mit einer vorgegebenen Anzahl Aktionen, die in einem Zustand xt jeweils zur Verfügung stehen,

• τ ein erster Zeitpunkt, zudem ein erstes Ereignis ω er- folgt,

• x +l ein Folgezustand des Systems,

bezeichnet wird.

Ein approximierter Wert des Zielwerts J*(xt) wird unter Verwendung eines Funktionsapproximators 400 (vgl. Fig.4) unter Verwendung von Trainingsdaten gelernt und gespeichert.

Trainingsdaten sind zuvor in dem Kommunikationsnetz 300 ge- messene Daten über das Verhalten des Kommunikationsnetzes 300 bei ankommenden Verbindungsanforderungen 304 sowie bei Beendigung von Nachrichten. Diese zeitliche Folge von Zuständen wird gespeichert und mit diesen Trainingsdaten wird der Funktionsapproximator 400 gemäß dem im weiteren beschriebenen Lernverfahren trainiert. Als Eingangsgröße des Funktionsapproximators 400 dienen für jeden Eingang 401, 402, 403 des Funktionsapproximators 400 jeweils eine Anzahl von Verbindungen jeweils eines Diensttyps m auf einer Route des Kommunikationsnetzes 300. Diese sind in Fig.4 durch Blöcke 404, 405, 406 symbolisch dargestellt.

Ausgangsgröße des Funktionsapproximators 400 ist ein approxi- mierter Zielwert J des Zielwerts J .

Eine detailliertere Darstellung des Funktionsapproximators 500, welcher in diesem Fall mehrere Teil-

Funktionsapproximatoren 510, 520 des Funktionsapproximators 500 aufweist, zeigt Fig.5. Eine Ausgangsgröße ist der approximierte Zielwert J, der gemäß folgender Vorschrift gebildet wird:

Die Eingangsgrößen der Teilfunktionsapproximatoren 510, 520, die an Eingängen 511, 512, 513 des ersten Teil- Funktionsapproximators 510 bzw. an Eingängen 521, 522 und 523 des zweiten Teilfunktionsapproximators 520 anliegen, sind wiederum jeweils eine Anzahl von Diensttypen eines Typs m je- weils in einer physikalischen Verbindung r, symbolisiert durch Blöcke 514, 515, 516 für den ersten Teil- Funktionsapproximator und 524, 525 und 526 für den zweiten Teil-Funktionsapproximator 520.

Teilausgangsgrößen 530, 531, 532, 533 werden einer Addiereinheit 540 zugeführt und als Ausgangsgröße der Addiereinheit wird die approximierte Zielgröße J gebildet.

Angenommen, das Kommunikationsnetz 300 befindet sich in dem Zustand x^, und eine Anforderungsnachricht, mit der ein

Diensttyp m der Klasse m für eine Verbindung zwischen zwei Knoten i, j angefordert wird, gelangt zu der ersten Verbindungseinheit 301a.

Mit R(i, j) wird eine Liste erlaubter Routen zwischen den Knoten i und j bezeichnet und mit

R(i, j, x_t]c) c R(i, j) (25)

wird eine Liste aller möglichen Routen als Teilmenge der Rou- ten R(i, j) bezeichnet, die hinsichtlich der verfügbaren und angeforderten Bandbreite eine mögliche Verbindung realisieren könnten.

Für jede mögliche Route r, r e Rli, j, x^ ) wird ein Folgezu- stand xt_k +l(^xtι_<r ' ^ωk' ^r) ermittelt, der daraus resultiert, daß die Verbindungsanforderung 304 akzeptiert wird und die Verbindung auf der Route r dem anfordernden ersten Endgerät 303 zur Verfügung gestellt wird.

Dies ist in Fig.1 als zweiter Schritt (Schritt 102) dargestellt, wobei in einem ersten Schritt (Schritt 101) jeweils der Zustand des Systems sowie das jeweilige Ereignis festgestellt werden.

Es wird in einem dritten Schritt (Schritt 103) eine auszuwählende Route r* gemäß folgender Vorschrift ermittelt:

r = arg _/max _\ ⁵(^xt_k+l(^xt 'ω_k, r), Θ_tJ. (26) reRI (i,j,x_tk)

In einem weiteren Schritt (Schritt 104) wird überprüft, ob folgende Vorschrift erfüllt ist:

c(m) + Θ_tJ < ^j(x_tk-Θ_t). (27) Ist dies der Fall, so wird die Verbindungsanforderung 304 zurückgewiesen (Schritt 105) , sonst wird die Verbindung akzeptiert und entlang der ausgewählten Route r* zu dem Knoten j „durchgeschaltet" (Schritt 106) .

In einem Parametervektor Θ sind jeweils für einen Zeitpunkt t Gewichte des Funktionsapproximators 400, 500 gespeichert, die im Rahmen des TD (λ) -Lernverfahrens an die Trainingsdaten adaptiert werden, so daß eine optimierte Zugangskontrolle und ein optimiertes Routing erreicht wird.

Während der Trainingsphase werden die Gewichtsparameter an die dem Funktionsapproximator angelegten Trainingsdaten angepaßt.

Es wird ein Risikoparameter K definiert, mit dem ein gewünschtes Risiko, welches durch eine Folge von Aktionen und Zuständen hinsichtlich eines vorgegebenen Zustands des Systems aufweist, einstellbar ist, gemäß folgenden Vorschrif- ten:

-1 < K < 0: risikoreiches Lernen,

K = 0: hinsichtlich des Risikos ein neutrales Lernen,

0 < K < 1: ein risiko-vermeidendes Lernen,

K = 1: „Worst-Case"-Lernen.

Fernen wird im Rahmen des Lernverfahrens ein vorgebbarer Parameter 0 < λ < 1 und eine Schrittweitenfolge γ_k vorgegeben.

Die Gewichtswerte des Gewichtsvektors Θ werden aufgrund jedes Ereignisses ωt_k gemäß folgender Adaptionsvorschrift an die Trainingsdaten angepaßt:

®k = Θ_k_ι + rkN^κ(d_k)z_t, (28) wobei

d_k = e ßO ^tk-¹)(g(x_tk,ω_k,a_t] ) + ^j(x_tk. ®k-l)) " ⁵(^xt_k_ ©k-l)

(29)

z_t = λe ^k-l ^tk-2)_Zt_₁ + V_Θj(x_tk_₁,Θ_k_₁), (30)

und

K^κ(ξ) = (l - κsign(ξ))ξ. (31)

Es wird angenommen: Z_]_ = 0.

Die Funktion

g(^xt_k' ^ωk' ^at ) ⁽32⁾

bezeichnet den sofortigen Gewinn gemäß folgender Vorschrift:

c(m) wenn ωtiist eine Diens tan forderung eines

Diensttyps m und die Verbindung wird g( t 'ω_k, a_t

* ) - akzeptiert 0 sonst

(33)

Es wird also, wie oben beschrieben, eine Folge von Aktionen ermittelt, hinsichtlich einer Verbindungsanforderung, so daß eine Verbindungsanforderung aufgrund einer Aktion entweder zurückgewiesen oder akzeptiert wird. Die Ermittlung erfolgt unter Berücksichtigung einer Optimierungsfunktion, in der das Risiko mittels eines Risikokontrollparameters K e [-1; 1] variabel einstellbar ist. Zweites Ausführungsbeispiel : Verkehrsleitsystem

Fig.6 zeigt eine Straße 600, die von Autos 601, 602, 603, 604, 605 und 606 befahren ist.

In die Straße 600 integrierte Leiterschleifen 610, 611 nehmen elektrische Signale in bekannter Weise auf und führen die elektrischen Signale 615, 616, einem Rechner 620 über eine Eingangs-/Ausgangsschnittstelle 621 zu. In einem mit der Ein- gangs-/Ausgangsschnittstelle 621 verbundenen Analog-/Digital- Wandler 622 werden die elektrischen Signale in eine Zeitreihe digitalisiert und in einem Speicher 623, der über einen Bus

624 mit dem Analog-/Digital-Wandler 622 und einem Prozessor

625 verbunden ist, gespeichert. Über die Eingangs- /Ausgangsschnittsstelle 621 werden einem Verkehrsleitsystem 650 Steuerungssignale 651 zugeführt, aus denen in dem Verkehrsleitsystem 650 eine vorgegebene Geschwindigkeitsvorgabe 652 einstellbar ist oder auch weitere Angaben von Verkehrsvorschriften, die über das Verkehrsleitsystem 650 Fahrern der Fahrzeuge 601, 602, 603, 604, 605 und 606 dargestellt werden.

Zur Verkehrsmodellierung werden in diesem Fall folgende lokale Zustandsgrößen verwendet:

• Verkehrsflußgeschwindigkeit v, • Fahrzeugdichte p (p = Anzahl von Fahrzeugen pro Kilome-

Fz ter — ) , km

Fz

• Verkehrsfluß q (q = Anzahl der Fahrzeuge pro Stunde — , h

(q= v * p) ) , und

• jeweils zu einem Zeitpunkt von dem Verkehrsleitsystem 650 angezeigte Geschwindigkeitsbegrenzungen 652.

Die lokalen Zustandsgrößen werden wie oben beschrieben unter Verwendung der Leiterschleifen 610, 611 gemessen. Somit stellen diese Größen (v(t), p(t), q(t)) einen Zustand des technischen Systems "Verkehr" zu einem bestimmten Zeitpunkt t dar.

In diesem Ausführungsbeispiel ist somit das System ein Verkehrssystem, welches unter Verwendung des Verkehrsleitsystems 650 geregelt wird.

Als Verfahren des approximativen dynamischen Programmierens wird in diesem zweiten Ausführungsbeispiel ein erweitertes Q- Lernverfahren beschrieben.

Der Zustand xt wird beschrieben durch einen Zustandsvektor

x(t) = (v(t), p(t), q(t)) . (34)

Die Aktion at bezeichnet die Geschwindikeitsbegrenzung 652, die zum Zeitpunkt t von dem Verkehrsleitsystem 650 angezeigt wird.

Der Gewinn r(xt, at, xt + l) beschreibt die Güte des Verkehrsflusses, der zwischen den Zeitpunkten t und t+1 von den Leiterschleifen 610 und 611 gemessen wurde. Im Rahmen dieses zweiten Ausführungsbeispiels bezeichnet r(xt, at, xt +l)

• die mittlere Geschwindigkeit der Fahrzeuge im Zeitintervall [t, t + 1],

oder

• die Anzahl der Fahrzeuge, die im Zeitintervall [t, t + 1] die Leiterschleifen 610 und 611 passiert haben,

oder

• die Varianz der Fahrzeuggeschwindigkeiten im Zeitintervall [t, t + 1], ^~ oder

• eine gewichtete Summe aus den obigen Größen.

Für jede mögliche Aktion at, d.h. für jede von dem Verkehrsleitsystem 650 anzeigbare Geschwindigkeitsbegrenzung, wird ein Wert der Optimierungsfunktion OFQ ermittelt, wobei jeweils ein geschätzter Wert der Optimierungsfunktion OFQ als neuronales Netz realisiert wird.

Aus diese Weise ergibt sich eine Menge von Bewertungsgrößen für die unterschiedlichen Aktionen at in dem Systemzustand ^xt-

In einer Regelungsphase wird aus den möglichen Aktionen at, d.h. aus der Menge der von dem Verkehrsleitsystem 650 anzeigbaren Geschwindigkeitsbegrenzungen, diejenige Aktion a ausgewählt, für die in dem aktuellen Systemzustand Xt die maxi- male Bewertungsgröße OFQ ermittelt worden ist.

Die aus dem Q-Lernverfahren bekannte Adaptionsvorschrift zur Berechnung der Optimierungsfunktion OFQ wird gemäß diesem Ausführungsbeispiel um eine Risikokontrollfunktion ^KQ , die das Risiko berücksichtigt, erweitert.

Wiederum wird der Risikokontrollparameter K gemäß der Strategie aus dem ersten Ausführungsbeispiel im Intervall von [-1 < K < 1] vorgegeben und repräsentiert das Risiko, das ein Benutzer im Rahmen der Anwendung hinsichtlich der zu bestimmenden Kontrollstrategie eingehen will.

Gemäß diesem Ausführungsbeispiel wird folgende Bewertungsfunktion OFQ verwendet:

OFQ == QQ(Xx;; ww^a') , (35) wobei mit

• x = (v; p; q) ein Zustand des Verkehrssystems,

• a eine Geschwindigkeitsbegrenzung aus dem Aktionsraum A aller vom Verkehrsleitsystem 650 anzeigbaren Geschwindigkeitsbegrenzungen,

• w die zur Geschwindigkeitsbegrenzung a gehörigen Gewichte des neuronalen Netzes,

bezeichnet wird/werden.

Im Rahmen des Q-Lernens wird zur Ermittlung der optimalen Ge- a wichte w den neuronalen Netzes folgender Adaptionsschritt ausgeführt:

^wt +l = ^wt^fc + ηt ^• K^K(d_t) ^• Vθ(x_t ^; wt^fc) ⁽36⁾

mit der Abkürzung

d_t = r(x_t, a_t, xt+l) + Y max Qx_t +ι, wξ - Q^xt, w^ J (37) aeA

wobei mit

• x , xt₊l jeweils ein Zustand des Verkehrssystems gemäß Vorschrift (34),

• at eine Aktion, d.h. eine von dem Verkehrsleitsystem 650 anzeigbare Geschwindigkeitsbegrenzung,

• γ ein vorgebbarer Verringerungsfaktor, • ^at der zur Aktion a gehörige Gewichtsvektor vor dem Adaptionsschritt, ^at

• t +l ^c*^{er zur} Aktion at gehörige Gewichtsvektor nach dem

Adaptionsschritt,

• Ηt (t = 1, _,..) eine vorgebbare Schrittweitenfolge, • K e [-1; 1] ein Risikokontrollparameter,

• ^κ eine Risikokontrollfunktion N^K(ξ) = (l - κsign(ξ))ξ ,

• VQ(-;-) die Ableitung des neuronalen Netzes nach seinen Gewichten, • r(xtr at, xt +l) ein Gewinn beim Zustandsübergang von dem Zustand xt nach dem Folgezustand xt+_l^

bezeichnet wird/werden.

Im Rahmen des Lernens kann aus den möglichen Aktionen at eine Aktion at zufällig gewählt werden. Hierbei ist es nicht erforderlich, die Aktion at, die zu der größten Bewertungsgröße geführt hat, zu wählen.

Die Adaption der Gewichte hat derart zu erfolgen, daß nicht nur eine im Erwartungswert der Optimierungsfunktion optimierte Regelung des Verkehrs erreicht wird, sondern auch eine Varianz der Regelungsergebnisse berücksichtigt wird.

Dies ist insbesondere vorteilhaft, da der Zustandsvektor x(t) das tatsächliche System Verkehr in einigen Aspekten nur unzureichend modelliert und es deshalb zu nicht erwarteten Störungen kommen kann. So hängt die Dynamik des Verkehrs und damit seiner Modellierung von weiteren Faktoren wie beispiels- weise Wetter, Anteil an Lastkraftwagen auf der Straße, ein

Anteil von Wohnmobilen, etc. ab, die nicht immer in den Meßgrößen des Zustandsvektors x(t) integriert sind. Zudem ist nicht immer sichergestellt, daß die Verkehrsteilnehmer sofort den neuen Geschwindigkeitsangaben gemäß dem Verkehrsleitsy- stem Folge leisten.

Eine Regelungsphase an dem realen System gemäß dem Verkehrsleitsystem vollzieht sich gemäß folgenden Schritten:

l.Das Messen des Zustandes xt zum Zeitpunkt t erfolgt an verschiedenen Stellen des Verkehrssystems Verkehr und ergibt einen Zustandsvektor x(t): = (v(t), p(t), q(t)) . Für alle möglichen Aktionen at wird ein Wert der Optimierungsfunktion ermittelt und es wird diejenige Aktion at mit der höchsten Bewertung in der Optimierungsfunktion ausgewählt.

In diesem Dokument sind folgende Veröffentlichungen zitiert:

[1] R. Neuneier, Enhancing Q-Learning for Optimal Asset Al- location, Proceedings of the Neural Information Proces- sing Systems, NIPS 1997

[2] R.S. Sutton, Learning to predict by the method of temporal differences, Machine Learning, 3:9-44, 1988

[3] M. Heger, Risk and Reinforcement Learning: Concepts and Dynamic Programming, ZKW Bericht Nr. 8/94, Zentrum für Kognitionswissenschaften, Universität Bremen, ISSN 0947- 0204, Dezember 1994

[4] D.P. Bertsekas, Dynamic Programming and Optimal Control, Athena Scientific, Belmont, MA, 1995

Claims

Patentansprüche

1. Verfahren zur rechnergestützten Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt, bei dem die Ermittlung der Folge von Aktionen derart erfolgt, daß eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimierungsfunkti- on optimiert ist, wobei die Optimierungsfunktion einen variablen Parameter enthält, mit dem ein Risiko, welches die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist, einstellbar ist.

2. Verfahren nach Anspruch 1, bei dem zur Ermittlung ein Verfahren des approximativen Dynamischen Programmierens eingesetzt wird.

3. Verfahren nach Anspruch 2, bei dem das Verfahren des approximativen Dynamischen Programmierens ein auf dem Q-Lernen basierendes Verfahren ist.

4. Verfahren nach Anspruch 3, bei dem die Optimierungsfunktion OFQ im Rahmen des Q-Lernens gemäß folgender Vorschrift gebildet wird:

OFQ = Q(X; w^a) ,

wobei mit

x ein Zustand in einem Zustandsraum X, a eine Aktion aus einem Aktionsraum A, aa

• ww ddiiee zzuurr AAkkttion a gehörigen Gewichte eines Funktions- approximators

bezeichnet wird/werden, und bei dem die Gewichte des Funktionsapproximators gemäß folgender Vorschrift adaptiert werden: ^w?₊ι = «t* ⁺ ηt ^• κ^κ(d_t) ^• Vθ(x_t ^; w^)

mit der Abkürzung

dt = ^r(^xt ' ^at/ ^xt + l) + Y ^{ax Q χ}t + 1' ^a " ^Q[ ^χt' ^3t 1 aeA ^ι

wobei mit

• x , xt₊l jeweils ein Zustand in dem Zustandsraum X,

• at eine Aktion aus einem Aktionsraum A,

• γ ein vorgebbarer Verringerungsfaktor, a+-

• w_t der zur Aktion a gehörige Gewichtsvektor vor dem Ad- aptionsschritt, • w_tt ++ ddeerr zzuurr AA^'ktion at gehörige Gewichtsvektor nach dem Adaptionsschritt,

• η (t = 1, ...) eine vorgebbare Schrittweitenfolge, • K G [-1; 1] ein Risikokontrollparameter,

• ^κ eine Risikokontrollfunktion ^κ(ξ) = (l - κsign(ξ))ξ, • VQ(-;-) die Ableitung des Funktionsapproximators nach seinen Gewichten, • r(xt, at, xt+l) ^elⁿ Gewinn beim Zustandsübergang von dem Zustand xt nach dem Folgezustand xt+l/

bezeichnet wird/werden.

5. Verfahren nach Anspruch 2, bei dem das Verfahren des approximativen Dynamischen Program- mierens ein auf dem TD(λ) -Lernen basierendes Verfahren ist.

6. Verfahren nach Anspruch 5, bei dem die Optimierungsfunktion OFTD im Rahmen des TD(λ)

Lernens gemäß folgender Vorschrift gebildet wird:

wobei mit

• x ein Zustand in einem Zustandsraum X,

• a eine Aktion aus einem Aktionsraum A,

• w die Gewichte eines Funktionsapproximators

bezeichnet wird/werden, und bei dem die Gewichte des Funkti- onsapproximators gemäß folgender Vorschrift adaptiert werden:

^wt +l = ^wt + ηt *^κ(d_t) ^{• z}t

mit den Abkürzungen

dt = ψ_t, a_t. xt +l) + Y^J(^xt +l'' ^wt) " ^j(xf" ^wt).

z_t = λ ^• γ • z_t_ι + Vj(x_t; w_t),

^z-l = 0

wobei mit

xt, xt+_l jeweils ein Zustand in dem Zustandsraum X, at eine Aktion aus einem Aktionsraum A, γ ein vorgebbarer Verringerungsfaktor, wt der Gewichtsvektor vor dem Adaptionsschritt, wt+i der Gewichtsvektor nach dem Adaptionsschritt, ηt (t = 1, ...) eine vorgebbare Schrittweitenfolge,

K e [-1; 1] ein Risikokontrollparameter, ^κ eine Risikokontrollfunktion K^K(ξ) = (l - κsign(ξ))ξ ,

Vj(-;-) die Ableitung des Funktionsapproximators nach seinen

Gewichten, r(xt, at, xt+i) ein Gewinn beim Zustandsübergang von dem Zustand x nach dem Folgezustand xt+_l bezeichnet wird/werden.

7. Verfahren nach einem der Ansprüche 1 bis 6, bei dem das System ein technisches System ist, von dem vor der Ermittlung Meßgrößen gemessen werden, die bei der Ermittlung der Folge von Aktionen verwendet werden.

8. Verfahren nach Anspruch 7, bei dem gemäß der Folge von Aktionen das technische System gesteuert wird.

9. Verfahren nach Anspruch 7, bei dem gemäß der Folge von Aktionen das technische System geregelt wird.

10. Verfahren nach einem der Ansprüche 1 bis 9, bei dem das System als ein Markov-Entscheidungsproblem modelliert wird.

11. Verfahren nach einem der Ansprüche 1 bis 10, eingesetzt in einem Verkehrsleitsystem.

12. Verfahren nach einem der Ansprüche 1 bis 10, eingesetzt in einem Kommunikationssystem.

13. Verfahren nach einem der Ansprüche 1 bis 10, eingesetzt zur Durchführung einer Zugangskontrolle in einem Kommunikationsnetz .

14. Verfahren nach einem der Ansprüche 1 bis 10, eingesetzt zur Durchführung eines Routings in einem Kommunikationsnetz.

15. Anordnung zur Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt, mit einem Prozessor, der derart eingerichtet ist, daß die Ermittlung der Folge von Aktionen derart erfolgen kann, daß eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimierungsfunktion op- timiert ist, wobei die Optimierungsfunktion einen variablen Parameter enthält, mit dem ein Risiko, welches die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist, einstellbar ist.

16. Anordnung nach Anspruch 15, eingesetzt zur Steuerung eines technischen Systems.

17. Anordnung nach Anspruch 15, eingesetzt zur Regelung eines technischen Systems.

18. Anordnung nach Anspruch 15, eingesetzt in einem Verkehrsleitsystem.

19. Anordnung nach Anspruch 15, eingesetzt in einem Kommunikationssystem.

20. Anordnung nach Anspruch 15, eingesetzt zur Durchführung einer Zugangskontrolle in einem Kommunikationsnetz .

21. Anordnung nach Anspruch 15, eingesetzt zur Durchführung eines Routings in einem Kommunikationsnetz.