EP1116172A2 - Verfahren und anordnung zur ermittlung einer folge von aktionen für ein system, welches zustände aufweist, wobei ein zustandsübergang zwischen zwei zuständen aufgrund einer aktion erfolgt - Google Patents

Verfahren und anordnung zur ermittlung einer folge von aktionen für ein system, welches zustände aufweist, wobei ein zustandsübergang zwischen zwei zuständen aufgrund einer aktion erfolgt

Info

Publication number
EP1116172A2
EP1116172A2 EP99953714A EP99953714A EP1116172A2 EP 1116172 A2 EP1116172 A2 EP 1116172A2 EP 99953714 A EP99953714 A EP 99953714A EP 99953714 A EP99953714 A EP 99953714A EP 1116172 A2 EP1116172 A2 EP 1116172A2
Authority
EP
European Patent Office
Prior art keywords
sequence
state
action
actions
states
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP99953714A
Other languages
English (en)
French (fr)
Inventor
Ralf Neuneier
Oliver Mihatsch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1116172A2 publication Critical patent/EP1116172A2/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management

Definitions

  • the invention relates to a method and an arrangement for determining a sequence of actions for a system which has states, a state transition between two states taking place as a result of an action.
  • Markov decision problem MDP
  • MDP Markov decision problem
  • the system 201 is in a state x ⁇ .
  • the state x ⁇ can be observed by an observer of the system.
  • the system Based on an action a - j - from a set of possible actions in the state Xt, a ⁇ e A (x ⁇ ), the system goes with a certain probability into a subsequent state xt + i at a subsequent time t + 1.
  • An observer 200 takes observable quantities about the state x - (- true 202 and makes a decision about an action 203 with which he acts on the system 201.
  • the system 201 is usually subject to a fault 205.
  • the profit r- ⁇ can assume a positive or negative scalar value, depending on whether the decision leads to a system development which is positive or negative with regard to a predefinable criterion, in [1] to an increase in capital or to a loss.
  • the observer 200 of the system 201 decides on a new action a - ⁇ + i etc. based on the observable variables 202, 204 of the subsequent state xt + i.
  • future states of system 201 do not depend on states and actions that are further than a time step in the past.
  • the goal is to determine a strategy based on observable variables, the variables referred to hereinafter as training data, i.e. a series of functions
  • Such a strategy is evaluated by an optimization function.
  • the optimization function specifies the expected value of the gains accumulated over time for a given strategy ⁇ and a starting state xn.
  • V (x) max V ⁇ (x) Vx e X (5) ⁇
  • V ⁇ (x) ⁇ t * x t + l)
  • 0 x (6)
  • denotes a predefinable reduction factor, which is formed in accordance with the following regulation:
  • a Q evaluation function Q (xt, at) is formed for each pair (state xt, action at) in accordance with the following rule:
  • the so-called Q values Q * (x, a) are approximated for different actions a by a function approximator, for example a neural network or also a polynomial classifier, with a weight vector w which contains the weights of the function approximator.
  • a function approximator for example a neural network or also a polynomial classifier
  • a function approximator is understood to mean, for example, a neural network, a polynomial classifier or also a combination of a neural network with a polynomial classifier.
  • the neural network which represents the financial market system as described in [1], is trained using the training data, which describe information about previous price developments of a financial market as time series values.
  • TD ( ⁇ ) learning method Another approximate dynamic programming method, the so-called TD ( ⁇ ) learning method, is known from [2] and is explained in more detail in connection with an exemplary embodiment.
  • the extended Q function Q ⁇ (xt, t) describes the worst case if the action at is carried out in the state xt and the strategy ⁇ is then followed.
  • the invention is therefore based on the problem of specifying a method and an arrangement for determining a sequence of actions for a system in which or in which an increased flexibility in determining the strategy is achieved.
  • the sequence of actions is determined in such a way that a sequence of states resulting from the sequence of actions takes place a given optimization function is optimized, the optimization function contains a variable parameter with which a risk which has the resulting sequence of states with respect to a predetermined state of the system can be set.
  • An arrangement for determining a sequence of actions for a system which has states, a state transition between two states taking place as a result of an action has a processor which is set up in such a way that the sequence of actions can be determined in such a way that a a sequence of states resulting from the sequence of actions is optimized with regard to a predetermined optimization function, the optimization function containing a variable parameter with which a risk which the resulting sequence of states has with respect to a predetermined state of the system can be set.
  • the invention makes it possible for the first time to specify a method for determining a sequence of actions with freely definable accuracy as part of a strategy for a possible regulation or control, in general influencing the system.
  • a method of approximate dynamic programming is used for the determination, for example a method based on Q learning or also a method based on TD ( ⁇ ) learning.
  • the OFQ optimization function is preferably formed in accordance with the following regulation:
  • the following adaptation step is carried out to determine the optimal weight w of the function approximator:
  • the optimization function is preferably formed in accordance with the following regulation:
  • A an action from an action area A
  • the system is preferably a technical system, from which measured variables are measured before the determination, which are used in determining the sequence of actions.
  • the technical system can be controlled or regulated using the determined sequence of actions.
  • the system is preferably modeled as a Markov decision problem.
  • the method or the arrangement are preferably used in a traffic control system or in a communication system, the sequence of actions for carrying out access control or routing, that is to say path assignment, being used in a communication network in the communication system.
  • the system can be a financial market which is modeled by a Markov decision problem and where the course of the financial market, for example a course of a Stock index or a price trend of a foreign exchange market can be analyzed using the methods or the arrangement and can be intervened in the market in accordance with the sequence of determined actions.
  • the course of the financial market for example a course of a Stock index or a price trend of a foreign exchange market can be analyzed using the methods or the arrangement and can be intervened in the market in accordance with the sequence of determined actions.
  • Figure 1 is a flowchart showing individual process steps of the first embodiment
  • FIG. 2 shows a sketch of a system which can be modeled as a Markov decision problem
  • FIG. 3 shows a sketch of a communication network in which access control is carried out in a switching unit
  • FIG. 4 shows a symbolic sketch of a function approximator with which a method of approximate dynamic programming is implemented
  • FIG. 5 shows a further sketch of a number of function approximators, with which an approximate dynamic programming is implemented
  • Figure 6 is a sketch of a traffic control system, which is controlled according to an embodiment.
  • First embodiment access control and routing.
  • FIG. 3 shows a communication network 300 which has a multiplicity of switching units 301a, 301b, ..., 301i, ... 301n which are connected to one another via connections 302a, 302b, 302j, ... 302m.
  • a first terminal 303 is connected to a first switching unit 301a.
  • a request message 304 is sent from the first terminal 303 to the first switching unit 301a, with which a reservation of a predetermined bandwidth within the communication network 300 for the transmission of data (video data, textual data) is requested.
  • a strategy described below is used to determine whether the requested bandwidth is available in the communication network 300 on a specified, requested connection (step 305).
  • the request is rejected (step 306).
  • a further check step (step 307) checks whether the bandwidth can be reserved.
  • the request is rejected (step 308).
  • the first switching unit 301a selects a route from the first switching unit 301a via further switching units 301i to a second terminal 309 with which the first terminal 303 wants to communicate, and a connection is initialized (step 310).
  • a communication network 300 is assumed which comprises a set of switching units
  • N ⁇ l, K, n, K, N ⁇ (17) and a set of physical connections
  • a physical connection 1 has a capacity of B (l) bandwidth units.
  • the profit c (m) is given by the amount of money that a network operator of the communication network 300 charges a subscriber for a connection of the service type.
  • the profit c (m) clearly reflects different priorities which can be specified by the network operator and which he associates with different services.
  • a physical connection 1 can simultaneously provide any combination of communication connections as long as the bandwidth used for the communication connections does not exceed the total available bandwidth of the physical connection. If a new communication connection of type m is requested between a first node i and a second node j (terminals are also referred to as nodes), the requested communication connection can, as shown above, either be accepted or rejected.
  • a route is selected from a set of predefined routes. This selection is called routing.
  • b (m) bandwidth units are used for each physical connection along the selected route for the connection duration.
  • a route within the communication network 300 can therefore only be selected as part of the access control (call admission control) if the selected route has sufficient bandwidth available.
  • the goal of access control and routing is to maximize long-term gain that is obtained by accepting the requested connections.
  • the technical system communication network 300 is in a state xt at a point in time t, which is described by a list of routes via existing connections, by means of which lists it is shown how many connections and which service type use the respective route at the point in time t.
  • Events w through which a state xt could be converted into a subsequent state xt + i, are the arrival of new connection request messages or the termination of a connection existing in the communication network 300.
  • an action at at a time t based on a connection request is the a decision as to whether to accept or reject a connection request and, if the connection is accepted, to select the route through the communications network 300.
  • the aim is to determine a sequence of actions, i.e. vividly determining the learning of a strategy with actions for a state x in such a way that the following rule is maximized:
  • the goal is to maximize the expected value of total profit G according to the following regulation J:
  • a risk that the total profit G of a special implementation of an access control and a routing strategy falls below the expected value can be set.
  • the TD ( ⁇ ) learning method is used to perform access control and routing.
  • An approximated value of the target value J * (xt) is learned and stored using a function approximator 400 (see FIG. 4) using training data.
  • Training data are previously measured data in the communication network 300 about the behavior of the communication network 300 when incoming connection requests 304 and when messages are terminated. This chronological sequence of states is stored and the functional approximator 400 is trained using this training data in accordance with the learning method described below.
  • a number of connections each of a service type m on a route of the communication network 300 are used as the input variable of the function approximator 400 for each input 401, 402, 403 of the function approximator 400. These are represented symbolically in FIG. 4 by blocks 404, 405, 406.
  • the output variable of the function approximator 400 is an approximated target value J of the target value J.
  • An output variable is the approximated target value J, which is formed in accordance with the following regulation:
  • the input variables of the subfunction approximators 510, 520 which are present at inputs 511, 512, 513 of the first subfunction approximator 510 or at inputs 521, 522 and 523 of the second subfunction approximator 520, are each a number of service types of a type m in each case in a physical connection r, symbolized by blocks 514, 515, 516 for the first partial function approximator and 524, 525 and 526 for the second partial function approximator 520.
  • Partial output variables 530, 531, 532, 533 are supplied to an adding unit 540 and the approximated target variable J is formed as the output variable of the adding unit.
  • Service type m of class m for a connection between two Node i, j is requested arrives at the first connection unit 301a.
  • R (i, j) a list of permitted routes between the nodes i and j is designated and with
  • a list of all possible routes is referred to as a subset of the routes R (i, j) that could implement a possible connection with regard to the available and requested bandwidth.
  • a subsequent state xt k + l ( x t ⁇ ⁇ r ' ⁇ k' r ) is determined, which results from the connection request 304 being accepted and the connection being opened the route r is made available to the requesting first terminal 303.
  • step 102 This is shown in FIG. 1 as a second step (step 102), the state of the system and the respective event being ascertained in a first step (step 101).
  • a route r * to be selected is determined in accordance with the following rule:
  • step 1014 it is checked whether the following requirement is met:
  • connection request 304 is rejected (step 105), otherwise the connection is accepted and "switched through” to the node j along the selected route r * (step 106).
  • weights of the functional approximators 400, 500 are stored for a time t, which are adapted to the training data as part of the TD ( ⁇ ) learning method, so that an optimized access control and an optimized routing is achieved.
  • the weight parameters are adapted to the training data created in the function approximator.
  • a risk parameter K is defined, by means of which a desired risk, which is due to a sequence of actions and states with regard to a predetermined state of the system, can be set, in accordance with the following regulations:
  • a specifiable parameter 0 ⁇ ⁇ 1 and a step size sequence ⁇ k are specified as part of the learning process.
  • the weight values of the weight vector ⁇ are adapted to the training data based on each event ⁇ t k in accordance with the following adaptation rule:
  • d k e ßO tk - 1 ) (g (x tk , ⁇ k , a t] ) + j (x tk . ®kl)) " 5 ( x t k _ ⁇ kl)
  • FIG. 6 shows a street 600 which is used by cars 601, 602, 603, 604, 605 and 606.
  • Conductor loops 610, 611 integrated in the street 600 receive electrical signals in a known manner and feed the electrical signals 615, 616 to a computer 620 via an input / output interface 621.
  • the electrical signals are digitized in a time series and in a memory 623, which is connected via a bus
  • a traffic control system 650 is supplied with control signals 651, from which a predefined speed setting 652 can be set in the traffic control system 650 or also further information from traffic regulations which is transmitted to the drivers 601, 602, 603, 604, via the traffic control system 650. 605 and 606 are shown.
  • the local state variables are measured as described above using the conductor loops 610, 611. These variables (v (t), p (t), q (t)) thus represent a state of the technical system "traffic" at a specific time t.
  • the system is thus a traffic system which is regulated using the traffic control system 650.
  • an extended Q learning method is described as a method of approximate dynamic programming.
  • the state xt is described by a state vector
  • the gain r (xt, at, xt + l) describes the quality of the traffic flow that was measured by the conductor loops 610 and 611 between the times t and t + 1.
  • r denotes (xt, at, xt + l)
  • a value of the optimization function OFQ is determined, with an estimated value of the optimization function OFQ being implemented as a neural network.
  • the adaptation rule known from the Q learning method for calculating the optimization function OFQ is expanded according to this exemplary embodiment by a risk control function K Q, which takes the risk into account.
  • the risk control parameter K is specified according to the strategy from the first exemplary embodiment in the interval of [-1 ⁇ K ⁇ 1] and represents the risk that a user wants to take in the context of the application with regard to the control strategy to be determined.
  • A a speed limit from the action space A of all speed limits that can be displayed by the traffic control system 650,
  • the following adaptation step is carried out to determine the optimum weights w of the neural network:
  • an action at can be chosen at random from the possible actions at. It is not necessary to choose the action at which has led to the largest assessment variable.
  • the weights have to be adapted in such a way that not only is a regulation of the traffic optimized in the expected value of the optimization function is achieved, but also a variance of the regulation results is taken into account.
  • a regulation phase on the real system according to the traffic control system takes place according to the following steps:
  • a value of the optimization function is determined for all possible actions at and the action at with the highest rating is selected in the optimization function.

Abstract

Die Ermittlung der Folge von Aktionen erfolgt derart, dass eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimierungsfunktion optimiert ist. Die Optimierungsfunktion enthält einen variablen Parameter, mit dem ein Risiko einstellbar ist, welches Risiko die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist.

Description

Beschreibung
Verfahren und Anordnung zur Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zu- Standsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt
Die Erfindung betrifft ein Verfahren sowie eine Anordnung zur Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt.
Ein solches Verfahren und eine solche Anordnung sind aus [1] bekannt .
In [1] ist als Beispiel für ein solches System, welches Zustände aufweist, ein Finanzmarkt beschrieben.
Das System wird als ein Markov-Entscheidungsproblem beschrie- ben (Markov-Decision-Problem, MDP) . Ein System, welches als Markov-Entscheidungsproblem beschrieben werden kann, ist in seiner Struktur in Fig.2 dargestellt.
Zu einem Zeitpunkt t befindet sich das System 201 in einem Zustand x^. Der Zustand x^ ist für einen Beobachter des Systems beobachtbar. Aufgrund einer Aktion a-j- aus einer Menge in dem Zustand Xt möglicher Aktionen, a^ e A(x^) geht das System mit einer gewissen Wahrscheinlichkeit in einen Folgezustand xt+i zu einem Folgezeitpunkt t+1 über.
Dies ist durch eine Schleife in Fig.2 symbolisch dargestellt. Ein Beobachter 200 nimmt beobachtbare Größen über den Zustand x-(- wahr 202 und trifft eine Entscheidung über eine Aktion 203, mit der er auf das System 201 einwirkt. Das System 201 unterliegt üblicherweise einer Störung 205.
Ferner erhält -der Beobachter 200 einen Gewinn r 204 rt = r(xt ' af xt + l) e 9* ' ( D
der von der Aktion a-t 203 und dem ursprünglichen Zustand x^- zu dem Zeitpunkt t sowie dem Folgezustand x +1 des Systems zu dem Folgezeitpunkt t+1 abhängt.
Der Gewinn r-^ kann einen positiven oder negativen skalaren Wert annehmen, je nachdem, ob die Entscheidung zu einer hin- sichtlich eines vorgebbaren Kriteriums positiven oder negativen 'Systementwicklung führt, in [1] zu einer Kapitalvermehrung oder zu einem Verlust.
In einem weiteren Zeitschritt entscheidet sich der Beobachter 200 des Systems 201 aufgrund der beobachtbaren Größen 202, 204 des Folgezustandes xt+i für eine neue Aktion a-^+i usw.
Eine Folge von
Zustand: xt e X
Aktion: at e A(xt)
Folgezustand: xt + l € X
Gewinn rt = r(xt, at, xt+l) e m
usw. beschreibt eine Trajektorie des Systems, die durch ein Performanzkriterium, das die einzelnen Gewinne r-^ über die Zeitpunkte t akkumuliert, bewertet wird. Bei einem Markov- Entscheidungsproblem wird vereinfachend angenommen, daß der Zustand x-^ und die Aktion a-t- alle Informationen enthalten, um eine Übergangswahrscheinlichkeit p(xt + l|-) des Systems von dem
Zustand x-^ zu dem Folgezustand xt+l zu beschreiben.
Formal bedeutet dies:
p(xt + l|xt'κ > x0' at'κ > aθ) = p(xt + l|xt' at)- (2) Mit p(xt +l|xt' at) wir eine Übergangswahrscheinlichkeit für den Folgezustand xt+l bei gegebenem Zustand x und gegebener Aktion at bezeichnet.
Bei einem Markov-Entscheidungsproblem hängen also zukünftige Zustände des Systems 201 nicht von Zuständen und Aktionen ab, die weiter als einen Zeitschritt in der Vergangenheit liegen.
Zusammenfassend sind im weiteren die Charakteristika eines Markov-Entscheidungsproblems dargestellt:
X Menge der möglichen Zustände des Systems, z.B. X = <Rm,
A(xt) Menge der möglichen Aktionen in dem Zustand r(x-)-, a^-, xt +l) Gewinn mit Erwartungswert R(xt, at) .
Das Ziel ist es, ausgehend von beobachtbaren Größen, den im weiteren als Trainingsdaten bezeichneten Größen, eine Strate- gie zu ermitteln, d.h. eine Folge von Funktionen
π = {μo' μi'κ ι I^T}' O)
welche zu jedem Zeitpunkt t jeden Zustand in eine Handlungs- Vorschrift, d.h. Aktion
μt(xt) = at (4)
abbilden.
Eine solche Strategie wird durch eine Optimierungsfunktion bewertet. Die Optimierungsfunktion gibt den Erwartungswert, der über die Zeit akkumulierten Gewinne bei einer gegebenen Strategie π und einem Startzustand xn an.
Als ein Beispiel eines Verfahrens des approximativen dynamischen Programmierens ist in [1] das sogenannte Q- Lernverfahren beschrieben.
Eine optimale Bewertungsfunktion V* (x) ist definiert durch
V (x) = max Vπ(x) Vx e X (5) π
mit
Vπ(x) = μt* xt +l)| 0 = x (6)
wobei mit γ ein vorgebbarer Verringerungsfaktor bezeichnet wird, der gemäß folgender Vorschrift gebildet wird:
γ = (7)
1 + z
z e 91" (8)
Im Rahmen des Q-Lernverfahrens wird für jedes Paar (Zustand xt, Aktion at) eine Q-Bewertungsfunktion Q (xt, at) gemäß folgender Vorschrift gebildet:
Q*(xt, at = ∑ p(χt + ι|χt'at) • rt +
X :e€XX
(9) Aufgrund jeweils des Tupels (xt, xt +l' at' rt) werden die Q- Werte Q*(x,a) in der k+1 ten Iteration gemäß folgender Lernregel mit einer vorgegebenen Lernrate η^ gemäß folgender Vorschrift adaptiert:
Qk+l(xt' t) = i1 - ηk)θk(xt' t) + ηjc + Y • (10)
Üblicherweise werden die sogenannten Q-Werte Q*(x,a) durch jeweils einen Funktionsapproximator, beispielsweise ein neuronales Netz oder auch einen Polynomklassifikator, mit einem Gewichtsvektor w , der Gewichte des Funktionsapproximators enthält, für verschiedene Aktionen a approximiert.
Unter einem Funktionsapproximator ist beispielsweise ein neuronales Netz, ein Polynomklassifikator oder auch eine Kombination eines neuronalen Netzes mit einem Polynomklassifikator zu verstehen.
Es gilt also:
Q*(x, a) * QX; wa) . (11)
Änderungen der Gewichte in dem Gewichtsvektor w basieren auf einer temporären Differenz dt, die gemäß folgender Vorschrift gebildet wird:
dt: = r(xt at' xt +l) + Y max +i; wk) - Q(xf' wkfc J (12)
Es ergibt sich für das Q-Lernverfahren unter Verwendung eines neuronalen Netzes folgende Adaptionsvorschrift für die Gewichte des neuronalen Netzes, welche Gewichte in dem Ge- a wichtsvektor w enthalten sind: w at = , at k + 1 = w, + ηk dt VQ xt i w at ( 13 )
Unter Verwendung der Trainingsdaten, die als Zeitreihenwerte Informationen über vorangegangene Kursverläufe eines Finanz- marktes beschreiben, wird das neuronale Netz, welches das System Finanzmarkt, wie in [1] beschrieben, darstellt, trainiert .
Ein weiteres Verfahren der approximativen dynamischen Pro- grammierung, das sogenannte TD (λ) -Lernverfahren, ist aus [2] bekannt und wird im Zusammenhang mit einem Ausführungsbeispiel näher erläutert.
Ferner ist aus [3] bekannt, welches Risiko mit einer Strate- gie π und einem Ausgangszustand x verbunden ist. Ein Verfahren zur Risikovermeidung ist ebenfalls aus [3] bekannt.
Bei dem aus [3] bekannten Verfahren wird folgende Optimierungsfunktion, welche auch als erweiterte Q-Funktion Qπ(xt' at) bezeichnet wird, verwendet:
maximiere
Qπ(xt' at = r(xt, at, xt +l) + π(xk), xk +ι)
(14)
Die erweiterte Q-Funktion Qπ(xt, t) beschreibt den schlechtesten Fall, falls in dem Zustand xt die Aktion at ausgeführt wird und die Strategie π daraufhin verfolgt wird.
Die Optimierungsfunktion Qπ(xf at) für Q*(xt, at ): = max Qπ(xt , at) π eil
( 15 )-
ist gegeben, durch folgende Vorschrift:
Q*(xt' at) = : i β )
Ein erheblicher Nachteil dieser Vorgehensweise ist darin zu sehen, daß nur der schlechteste Fall im Rahmen der Strategie- findung berücksichtigt wird. Dies spiegelt jedoch die Anforderungen verschiedenster technischer Systeme nur in unzureichendem Ausmaß wieder.
Aus [4] ist es ferner bekannt, eine Zugangskontrolle für ein Kommunikationsnetz sowie das Routing innerhalb des Kommunikationsnetzes als ein Problem der dynamischen Programmierung zu formulieren.
Somit liegt der Erfindung das Problem zugrunde, ein Verfahren sowie eine Anordnung zur Ermittlung einer Folge von Aktionen für ein System anzugeben, bei dem bzw. bei der eine erhöhte Flexibilität bei der Ermittlung der Strategie erreicht wird.
Das Problem wird durch das Verfahren sowie durch die Anord- nung gemäß den Merkmalen der unabhängigen Patentansprüche gelöst.
Bei einem Verfahren zur rechnergestützten Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt, erfolgt die Ermittlung der Folge von Aktionen derart, daß eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimierungsfunktion optimiert ist, wobei die Optimierungs- funktion einen variablen Parameter enthält, mit dem ein Risiko, welches die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist, einstellbar ist.
Eine Anordnung zur Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt, weist einen Prozessor auf, der derart eingerichtet ist, daß die Ermittlung der Folge von Aktionen derart erfolgen kann, daß eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimie- rungsfunktion optimiert ist, wobei die Optimierungsfunktion einen variablen Parameter enthält, mit dem ein Risiko, wel- ches die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist, einstellbar ist.
Durch die Erfindung wird es erstmals möglich, in frei vorgebbarer Genauigkeit im Rahmen einer Strategiefindung für eine möglichen Regelung oder Steuerung, allgemein einer Beeinflussung des Systems, ein Verfahren zur Ermittlung einer Folge von Aktionen anzugeben.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Die im weiteren beschriebenen Weiterbildungen gelten sowohl für das Verfahren als auch die Anordnung, wobei bei der Weiterbildung der Anordnung jeweils der Prozessor derart einge- richtet ist, daß die Weiterbildung realisierbar ist.
In einer bevorzugten Ausgestaltung wird zur Ermittlung ein Verfahren des approximativen dynamischen Programmierens eingesetzt, beispielsweise ein auf dem Q-Lernen basierendes Ver- fahren oder auch ein auf dem TD(λ) -Lernen basierendes Verfahren. Im Rahmen des Q-Lernens wird bevorzugt die Optimierungsfunktion OFQ gemäß folgender Vorschrift gebildet:
OFQ = Q(X; wa) ,
wobei mit
• x ein Zustand in einem Zustandsraum X,
• a eine Aktion aus einem Aktionsraum A, aa • ww ddiiee zzuurr AAkkttion a gehörigen Gewichte eines Funktions- approximators
bezeichnet wird/werden.
Im Rahmen des Q-Lernens wird zur Ermittlung der optimalen Ge- a wichte w des Funktionsapproximators folgender Adaptionsschritt ausgeführt:
wt +l = wtt + t KK(dt) VQxt; w^ J
mit der Abkürzung
dt = r(xt> at' xt +l) + Y max Qxt +1' t) - θxt. wStJ a€A
wobei mit
• x , Xt+l jeweils ein Zustand in dem Zustandsraum X,
• at eine Aktion aus einem Aktionsraum A,
• γ ein vorgebbarer Verringerungsfaktor, • wt at der zur Aktion at gehörige Gewichtsvektor vor dem Adaptionsschritt,
t at+-j_ der zur Aktion at gehörige Gewichtsvektor nach dem
Adaptionsschritt,
• η (t = 1, ". . . ) eine vorgebbare Schrittweitenfolge, • K € [-1; 1] ein Risikokontrollparameter,
κ eine Risikokontrollfunktion κ(ξ) = (l - κsign(ξ))ξ,
• VQ(-;-) die Ableitung des Funktionsapproximators nach seinen Gewichten, r(xt, t, χt+l) ein Gewinn beim Zustandsübergang von dem Zustand xt nach dem Folgezustand xt+l/
bezeichnet wird/werden.
Im Rahmen des TD (λ) -Lernverfahrens wird die Optimierungsfunktion bevorzugt gemäß folgender Vorschrift gebildet:
wobei mit
• x ein Zustand in einem Zustandsraum X,
• a eine Aktion aus einem Aktionsraum A,
• w die Gewichte eines Funktionsapproximators
bezeichnet wird/werden.
Im Rahmen des TD (λ) -Lernens wird zur Ermittlung der optimalen Gewichte w des Funktionsapproximators folgender Adaptions- schritt ausgeführt:
wt +l = wt + ηt ■ κ(dt) zt
mit den Abkürzungen
dt = ψt- at' χt+ι) + YJ(xt+ι; wt) - j(xf" wt),
zt = λ γ • zt_ι + Vj(xt; wt),
z_ι = 0, wobei mit
xt, xt+l jeweils ein Zustand in dem Zustandsraum X, at eine Aktion aus einem Aktionsraum A, γ ein vorgebbarer Verringerungsfaktor, wt der Gewichtsvektor vor dem Adaptionsschritt, wt+i der Gewichtsvektor nach dem Adaptionsschritt, ηt (t = 1, ...) eine vorgebbare Schrittweitenfolge, K e [-1; 1] ein Risikokontrollparameter, κ eine Risikokontrollfunktion KK(ξ) = (l - κsign(ξ))ξ, Vj(V) die Ableitung des Funktionsapproximators nach seinen Gewichten, r(xt, at, xt +l) eln Gewinn beim Zustandsübergang von dem Zustand x nach dem Folgezustand xt+l,
bezeichnet wird/werden.
Das System ist bevorzugt ein technisches System, von dem vor der Ermittlung Meßgrößen gemessen werden, die bei der Ermitt- lung der Folge von Aktionen verwendet werden.
Unter Verwendung der ermittelten Folge von Aktionen kann das technische System gesteuert oder auch geregelt werden.
Bevorzugt wird das System als ein Markov-Entscheidungsproblem modelliert.
Das Verfahren oder die Anordnung werden bevorzugt in einem Verkehrsleitsystem oder in einem Kommunikationssystem einge- setzt, wobei in dem Kommunikationssystem die Folge von Aktionen zur Durchführung einer Zugangskontrolle oder eines Routings, also einer Pfadvergabe, in einem Kommunikationsnetz eingesetzt wird.
Ferner kann das System ein Finanzmarkt sein, welcher durch ein Markov-Entscheidungsproblem modelliert wird und wobei der Verlauf des Finanzmarkts, beispielsweise ein Verlauf eines Aktienindex oder auch ein Kursverlauf eines Devisenmarktes unter Verwendung der Verfahren bzw. der Anordnung analysiert und in den Markt entsprechend der Folge ermittelter Aktionen eingegriffen werden kann.
Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden im weiteren näher erläutert.
Es zeigen
Figur 1 ein Ablaufdiagramm, in dem einzelne Verfahrensschritte des ersten Ausführungsbeispiels dargestellt sind;
Figur 2 eine Skizze eines Systems, welches als Markov- Entscheidungsproblem modelliert werden kann;
Figur 3 eine Skizze eines Kommunikationsnetzes, bei dem in einer Vermittlungseinheit eine Zugangskontrolle durchgeführt wird;
Figur 4 eine symbolische Skizze eines Funktionsapproximators, mit dem ein Verfahren des approximativen dynamischen Programmierens realisiert wird;
Figur 5 eine weitere Skizze von mehreren Funktionsapproxi- matoren, mit dem ein approximatives dynamisches Programmieren implementiert wird;
Figur 6 eine Skizze eines Verkehrsleitsystems, welches gemäß einem Ausführungsbeispiel geregelt wird. Erstes Ausführungsbeispiel: Zugangskontrolle und Routing.
Fig.3 zeigt ein Kommunikationsnetz 300, welches eine Vielzahl von Vermittlungseinheiten 301a, 301b, ..., 301i, ... 301n aufweist, die über Verbindungen 302a, 302b, 302j, ... 302m miteinander verbunden sind.
Ferner ist ein erstes Endgerät 303 mit einer ersten Vermittlungseinheit 301a verbunden. Von dem ersten Endgerät 303 wird eine Anforderungsnachricht 304 an die erste Vermittlungseinheit 301a gesendet, mit der eine Reservierung einer vorgegebenen Bandbreite innerhalb des Kommunikationsnetzes 300 zur Übertragung von Daten (Videodaten, textuelle Daten) angefordert wird.
In der ersten Vermittlungseinheit 301a wird gemäß einer im weiteren beschriebenen Strategie ermittelt, ob die angeforderte Bandbreite in dem Kommunikationsnetz 300 auf einer angegebenen, angeforderten Verbindung verfügbar ist (Schritt 305) .
Ist dies nicht der Fall, so wird die Anforderung zurückgewiesen (Schritt 306) .
Ist ausreichend Bandbreite verfügbar, so wird in einem weiteren Überprüfungsschritt (Schritt 307) überprüft, ob die Bandbreite reserviert werden kann.
Ist dies nicht der Fall, so wird die Anforderung zurückgewie- sen (Schritt 308) .
Sonst wird von der ersten Vermittlungseinheit 301a eine Route von der ersten Vermittlungseinheit 301a über weitere Vermittlungseinheiten 301i zu einem zweiten Endgerät 309, mit dem das erste Endgerät 303 kommunizieren will, ausgewählt und es wird eine Verbindung initialisiert (Schritt 310) . Im folgenden wird von einem Kommunikationsnetz 300 ausgegangen, welches einen Satz von Vermittlungseinheiten
N= {l,K , n,K , N} (17) und einen Satz von physikalischen Verbindungen
L= {l,K ,1,K ,L}, (18)
umfaßt, wobei eine physikalische Verbindung 1 eine Kapazität von B(l) Bandbreiteneinheiten aufweist.
Es sind ein Satz
M= {l, K ,m, K , M} (19)
verschiedener Diensttypen m verfügbar, wobei ein Diensttyp m durch
• einen Bandbreitenbedarf b (m) ,
• eine durchschnittliche Verbindungsdauer - , und v(m) • einen Gewinn c (m) , den man dann erhält, wenn eine Verbindungsanforderung des entsprechenden Diensttyps m akzeptiert wird, charakterisiert ist.
Der Gewinn c (m) ist gegeben durch die Menge des Geldes, die ein Netzwerkbetreiber des Kommunikationsnetzes 300 einem Teilnehmer für eine Verbindung des Diensttyps in Rechnung stellt. Anschaulich spiegelt der Gewinn c (m) unterschiedliche, von dem Netzbetreiber vorgebbare Prioritäten wider, die er mit verschiedenen Diensten assoziiert.
Eine physikalischen Verbindung 1 kann gleichzeitig eine beliebige Kombination von Kommunikationsverbindungen bereitstellen, solange die genutzte Bandbreite der Kommunikations- Verbindungen nicht die insgesamt verfügbare Bandbreite der physikalischen Verbindung übersteigt. Wird eine neue Kommunikationsverbindung des Typs m angefordert zwischen einem ersten Knoten i und einem zweiten Knoten j (Endgeräte werden auch als Knoten bezeichnet) , so kann die angeforderte Kommunikationsverbindung, wie oben dargestellt, entweder akzeptiert oder zurückgewiesen werden.
Wird die Kommunikationsverbindungen akzeptiert, so wird eine Route aus einer Menge vorgegebener Routen ausgewählt. Diese Auswahl wird als Routing bezeichnet. Im Rahmen der Kommunikationsverbindung vom Typ m werden b(m) Bandbreiteneinheiten für jede physikalische Verbindung entlang der ausgewählten Route für die Verbindungsdauer benutzt.
Somit kann im Rahmen der Zugangskontrolle (Call-Admission- Control) eine Route innerhalb des Kommunikationsnetzes 300 nur ausgewählt werden, wenn die ausgewählte Route ausreichend Bandbreite zur Verfügung hat.
Ziel der Zugangskontrolle und des Routings ist es, einen langfristigen Gewinn, der durch Akzeptanz der angeforderten Verbindungen erhalten wird, zu maximieren.
Das technische System Kommunikationsnetz 300 befindet sich zu einem Zeitpunkt t in einem Zustand xt, welcher durch eine Liste von Routen über bestehende Verbindungen beschrieben wird, durch welche Listen angezeigt ist, wie viele Verbindungen welchen Diensttyps zu dem Zeitpunkt t die jeweilige Route verwenden.
Ereignisse w, durch die ein Zustand xt in einen Folgezustand xt+i überführt werden könnte, sind das Ankommen neuer Verbin- dungsanforderungsnachrichten oder auch das Beenden einer in dem Kommunikationsnetz 300 bestehenden Verbindung.
Eine Aktion at zu einem Zeitpunkt t aufgrund einer Verbindungsanforderung ist in diesem Ausführungsbeispiel die Ent- scheidung, ob eine Verbindungsanforderung akzeptiert oder zurückgewiesen werden soll und, falls die Verbindung akzeptiert wird, die Auswahl der Route durch das Kommunikationsnetz 300.
Ziel ist die Ermittlung einer Folge von Aktionen, d.h. anschaulich das Lernen einer Strategie mit Aktionen zu einem Zustand x zu bestimmen derart, daß folgende Vorschrift maxi- miert wird:
• g(xtk'ωk' tk 0) (20)
wobei mit
• E{.} ein Erwartungswert, • tk ein Zeitpunkt, zu dem ein k-tes Ereignis erfolgt,
• fxtb- ' ωk' at ) der Gewinn, der mit dem k-ten Ereignis verbunden ist, und
• ß ein Verringerungsfaktor, der einen sofortigen Gewinn wertvoller bewertet als ein Gewinn in ferner in der Zukunft liegenden Zeitpunkten,
bezeichnet wird.
Unterschiedliche Realisierungen einer Strategie führen übli- cherweise zu unterschiedlichen Gesamtgewinnen G:
co G = ∑e-^k • g(xtkk, atk). (21) k=0
Ziel ist die Maximierung des Erwartungswerts des Gesamtgewinns G gemäß folgender Vorschrift J:
wobei ein Risiko, daß der Gesamtgewinn G einer speziellen Realisierung einer Zugangskontrolle und einer Routing- Strategie unter den Erwartungswert sinkt, einstellbar ist.
Zur Durchführung der Zugriffskontrolle sowie zum Routing wird das TD (λ) -Lernverfahren eingesetzt.
Es wird folgende Zielfunktion im Rahmen dieses Ausführungsbeispiels eingesetzt:
J*(xt) = Eτ e ßτ Ef max g(xtt, a) + J*(xt + l) (23) l ι laeAl J
wobei mit
• A ein Aktionsraum mit einer vorgegebenen Anzahl Aktionen, die in einem Zustand xt jeweils zur Verfügung stehen,
• τ ein erster Zeitpunkt, zudem ein erstes Ereignis ω er- folgt,
• x +l ein Folgezustand des Systems,
bezeichnet wird.
Ein approximierter Wert des Zielwerts J*(xt) wird unter Verwendung eines Funktionsapproximators 400 (vgl. Fig.4) unter Verwendung von Trainingsdaten gelernt und gespeichert.
Trainingsdaten sind zuvor in dem Kommunikationsnetz 300 ge- messene Daten über das Verhalten des Kommunikationsnetzes 300 bei ankommenden Verbindungsanforderungen 304 sowie bei Beendigung von Nachrichten. Diese zeitliche Folge von Zuständen wird gespeichert und mit diesen Trainingsdaten wird der Funktionsapproximator 400 gemäß dem im weiteren beschriebenen Lernverfahren trainiert. Als Eingangsgröße des Funktionsapproximators 400 dienen für jeden Eingang 401, 402, 403 des Funktionsapproximators 400 jeweils eine Anzahl von Verbindungen jeweils eines Diensttyps m auf einer Route des Kommunikationsnetzes 300. Diese sind in Fig.4 durch Blöcke 404, 405, 406 symbolisch dargestellt.
Ausgangsgröße des Funktionsapproximators 400 ist ein approxi- mierter Zielwert J des Zielwerts J .
Eine detailliertere Darstellung des Funktionsapproximators 500, welcher in diesem Fall mehrere Teil-
Funktionsapproximatoren 510, 520 des Funktionsapproximators 500 aufweist, zeigt Fig.5. Eine Ausgangsgröße ist der approximierte Zielwert J, der gemäß folgender Vorschrift gebildet wird:
Die Eingangsgrößen der Teilfunktionsapproximatoren 510, 520, die an Eingängen 511, 512, 513 des ersten Teil- Funktionsapproximators 510 bzw. an Eingängen 521, 522 und 523 des zweiten Teilfunktionsapproximators 520 anliegen, sind wiederum jeweils eine Anzahl von Diensttypen eines Typs m je- weils in einer physikalischen Verbindung r, symbolisiert durch Blöcke 514, 515, 516 für den ersten Teil- Funktionsapproximator und 524, 525 und 526 für den zweiten Teil-Funktionsapproximator 520.
Teilausgangsgrößen 530, 531, 532, 533 werden einer Addiereinheit 540 zugeführt und als Ausgangsgröße der Addiereinheit wird die approximierte Zielgröße J gebildet.
Angenommen, das Kommunikationsnetz 300 befindet sich in dem Zustand x^, und eine Anforderungsnachricht, mit der ein
Diensttyp m der Klasse m für eine Verbindung zwischen zwei Knoten i, j angefordert wird, gelangt zu der ersten Verbindungseinheit 301a.
Mit R(i, j) wird eine Liste erlaubter Routen zwischen den Knoten i und j bezeichnet und mit
R(i, j, xt]c) c R(i, j) (25)
wird eine Liste aller möglichen Routen als Teilmenge der Rou- ten R(i, j) bezeichnet, die hinsichtlich der verfügbaren und angeforderten Bandbreite eine mögliche Verbindung realisieren könnten.
Für jede mögliche Route r, r e Rli, j, x^ ) wird ein Folgezu- stand xtk +l(x<r ' ωk' r) ermittelt, der daraus resultiert, daß die Verbindungsanforderung 304 akzeptiert wird und die Verbindung auf der Route r dem anfordernden ersten Endgerät 303 zur Verfügung gestellt wird.
Dies ist in Fig.1 als zweiter Schritt (Schritt 102) dargestellt, wobei in einem ersten Schritt (Schritt 101) jeweils der Zustand des Systems sowie das jeweilige Ereignis festgestellt werden.
Es wird in einem dritten Schritt (Schritt 103) eine auszuwählende Route r* gemäß folgender Vorschrift ermittelt:
r = arg /max \ 5(xtk+l(xt 'ωk, r), ΘtJ. (26) reRI (i,j,xtk)
In einem weiteren Schritt (Schritt 104) wird überprüft, ob folgende Vorschrift erfüllt ist:
c(m) + ΘtJ < j(xtkt). (27) Ist dies der Fall, so wird die Verbindungsanforderung 304 zurückgewiesen (Schritt 105) , sonst wird die Verbindung akzeptiert und entlang der ausgewählten Route r* zu dem Knoten j „durchgeschaltet" (Schritt 106) .
In einem Parametervektor Θ sind jeweils für einen Zeitpunkt t Gewichte des Funktionsapproximators 400, 500 gespeichert, die im Rahmen des TD (λ) -Lernverfahrens an die Trainingsdaten adaptiert werden, so daß eine optimierte Zugangskontrolle und ein optimiertes Routing erreicht wird.
Während der Trainingsphase werden die Gewichtsparameter an die dem Funktionsapproximator angelegten Trainingsdaten angepaßt.
Es wird ein Risikoparameter K definiert, mit dem ein gewünschtes Risiko, welches durch eine Folge von Aktionen und Zuständen hinsichtlich eines vorgegebenen Zustands des Systems aufweist, einstellbar ist, gemäß folgenden Vorschrif- ten:
-1 < K < 0: risikoreiches Lernen,
K = 0: hinsichtlich des Risikos ein neutrales Lernen,
0 < K < 1: ein risiko-vermeidendes Lernen,
K = 1: „Worst-Case"-Lernen.
Fernen wird im Rahmen des Lernverfahrens ein vorgebbarer Parameter 0 < λ < 1 und eine Schrittweitenfolge γk vorgegeben.
Die Gewichtswerte des Gewichtsvektors Θ werden aufgrund jedes Ereignisses ωtk gemäß folgender Adaptionsvorschrift an die Trainingsdaten angepaßt:
®k = Θk_ι + rkNκ(dk)zt, (28) wobei
dk = e ßO tk-1)(g(xtkk,at] ) + j(xtk. ®k-l)) " 5(xtk_ ©k-l)
(29)
zt = λe ^k-l tk-2)Zt_1 + VΘj(xtk_1k_1), (30)
und
Kκ(ξ) = (l - κsign(ξ))ξ. (31)
Es wird angenommen: Z_]_ = 0.
Die Funktion
g(xtk' ωk' at ) (32)
bezeichnet den sofortigen Gewinn gemäß folgender Vorschrift:
c(m) wenn ωtiist eine Diens tan forderung eines
Diensttyps m und die Verbindung wird g( t 'ωk, at
* ) - akzeptiert 0 sonst
(33)
Es wird also, wie oben beschrieben, eine Folge von Aktionen ermittelt, hinsichtlich einer Verbindungsanforderung, so daß eine Verbindungsanforderung aufgrund einer Aktion entweder zurückgewiesen oder akzeptiert wird. Die Ermittlung erfolgt unter Berücksichtigung einer Optimierungsfunktion, in der das Risiko mittels eines Risikokontrollparameters K e [-1; 1] variabel einstellbar ist. Zweites Ausführungsbeispiel : Verkehrsleitsystem
Fig.6 zeigt eine Straße 600, die von Autos 601, 602, 603, 604, 605 und 606 befahren ist.
In die Straße 600 integrierte Leiterschleifen 610, 611 nehmen elektrische Signale in bekannter Weise auf und führen die elektrischen Signale 615, 616, einem Rechner 620 über eine Eingangs-/Ausgangsschnittstelle 621 zu. In einem mit der Ein- gangs-/Ausgangsschnittstelle 621 verbundenen Analog-/Digital- Wandler 622 werden die elektrischen Signale in eine Zeitreihe digitalisiert und in einem Speicher 623, der über einen Bus
624 mit dem Analog-/Digital-Wandler 622 und einem Prozessor
625 verbunden ist, gespeichert. Über die Eingangs- /Ausgangsschnittsstelle 621 werden einem Verkehrsleitsystem 650 Steuerungssignale 651 zugeführt, aus denen in dem Verkehrsleitsystem 650 eine vorgegebene Geschwindigkeitsvorgabe 652 einstellbar ist oder auch weitere Angaben von Verkehrsvorschriften, die über das Verkehrsleitsystem 650 Fahrern der Fahrzeuge 601, 602, 603, 604, 605 und 606 dargestellt werden.
Zur Verkehrsmodellierung werden in diesem Fall folgende lokale Zustandsgrößen verwendet:
• Verkehrsflußgeschwindigkeit v, • Fahrzeugdichte p (p = Anzahl von Fahrzeugen pro Kilome-
Fz ter — ) , km
Fz
• Verkehrsfluß q (q = Anzahl der Fahrzeuge pro Stunde — , h
(q= v * p) ) , und
• jeweils zu einem Zeitpunkt von dem Verkehrsleitsystem 650 angezeigte Geschwindigkeitsbegrenzungen 652.
Die lokalen Zustandsgrößen werden wie oben beschrieben unter Verwendung der Leiterschleifen 610, 611 gemessen. Somit stellen diese Größen (v(t), p(t), q(t)) einen Zustand des technischen Systems "Verkehr" zu einem bestimmten Zeitpunkt t dar.
In diesem Ausführungsbeispiel ist somit das System ein Verkehrssystem, welches unter Verwendung des Verkehrsleitsystems 650 geregelt wird.
Als Verfahren des approximativen dynamischen Programmierens wird in diesem zweiten Ausführungsbeispiel ein erweitertes Q- Lernverfahren beschrieben.
Der Zustand xt wird beschrieben durch einen Zustandsvektor
x(t) = (v(t), p(t), q(t)) . (34)
Die Aktion at bezeichnet die Geschwindikeitsbegrenzung 652, die zum Zeitpunkt t von dem Verkehrsleitsystem 650 angezeigt wird.
Der Gewinn r(xt, at, xt + l) beschreibt die Güte des Verkehrsflusses, der zwischen den Zeitpunkten t und t+1 von den Leiterschleifen 610 und 611 gemessen wurde. Im Rahmen dieses zweiten Ausführungsbeispiels bezeichnet r(xt, at, xt +l)
• die mittlere Geschwindigkeit der Fahrzeuge im Zeitintervall [t, t + 1],
oder
• die Anzahl der Fahrzeuge, die im Zeitintervall [t, t + 1] die Leiterschleifen 610 und 611 passiert haben,
oder
• die Varianz der Fahrzeuggeschwindigkeiten im Zeitintervall [t, t + 1], ~ oder
• eine gewichtete Summe aus den obigen Größen.
Für jede mögliche Aktion at, d.h. für jede von dem Verkehrsleitsystem 650 anzeigbare Geschwindigkeitsbegrenzung, wird ein Wert der Optimierungsfunktion OFQ ermittelt, wobei jeweils ein geschätzter Wert der Optimierungsfunktion OFQ als neuronales Netz realisiert wird.
Aus diese Weise ergibt sich eine Menge von Bewertungsgrößen für die unterschiedlichen Aktionen at in dem Systemzustand xt-
In einer Regelungsphase wird aus den möglichen Aktionen at, d.h. aus der Menge der von dem Verkehrsleitsystem 650 anzeigbaren Geschwindigkeitsbegrenzungen, diejenige Aktion a ausgewählt, für die in dem aktuellen Systemzustand Xt die maxi- male Bewertungsgröße OFQ ermittelt worden ist.
Die aus dem Q-Lernverfahren bekannte Adaptionsvorschrift zur Berechnung der Optimierungsfunktion OFQ wird gemäß diesem Ausführungsbeispiel um eine Risikokontrollfunktion KQ , die das Risiko berücksichtigt, erweitert.
Wiederum wird der Risikokontrollparameter K gemäß der Strategie aus dem ersten Ausführungsbeispiel im Intervall von [-1 < K < 1] vorgegeben und repräsentiert das Risiko, das ein Benutzer im Rahmen der Anwendung hinsichtlich der zu bestimmenden Kontrollstrategie eingehen will.
Gemäß diesem Ausführungsbeispiel wird folgende Bewertungsfunktion OFQ verwendet:
OFQ == QQ(Xx;; wwa') , (35) wobei mit
• x = (v; p; q) ein Zustand des Verkehrssystems,
• a eine Geschwindigkeitsbegrenzung aus dem Aktionsraum A aller vom Verkehrsleitsystem 650 anzeigbaren Geschwindigkeitsbegrenzungen,
• w die zur Geschwindigkeitsbegrenzung a gehörigen Gewichte des neuronalen Netzes,
bezeichnet wird/werden.
Im Rahmen des Q-Lernens wird zur Ermittlung der optimalen Ge- a wichte w den neuronalen Netzes folgender Adaptionsschritt ausgeführt:
wt +l = wtfc + ηt KK(dt) Vθ(xt ; wtfc) (36)
mit der Abkürzung
dt = r(xt, at, xt+l) + Y max Qxt +ι, wξ - Q^xt, w^ J (37) aeA
wobei mit
• x , xt+l jeweils ein Zustand des Verkehrssystems gemäß Vorschrift (34),
• at eine Aktion, d.h. eine von dem Verkehrsleitsystem 650 anzeigbare Geschwindigkeitsbegrenzung,
• γ ein vorgebbarer Verringerungsfaktor, • at der zur Aktion a gehörige Gewichtsvektor vor dem Adaptionsschritt, at
• t +l c*er zur Aktion at gehörige Gewichtsvektor nach dem
Adaptionsschritt,
• Ηt (t = 1, _,..) eine vorgebbare Schrittweitenfolge, • K e [-1; 1] ein Risikokontrollparameter,
κ eine Risikokontrollfunktion NK(ξ) = (l - κsign(ξ))ξ ,
• VQ(-;-) die Ableitung des neuronalen Netzes nach seinen Gewichten, • r(xtr at, xt +l) ein Gewinn beim Zustandsübergang von dem Zustand xt nach dem Folgezustand xt+l^
bezeichnet wird/werden.
Im Rahmen des Lernens kann aus den möglichen Aktionen at eine Aktion at zufällig gewählt werden. Hierbei ist es nicht erforderlich, die Aktion at, die zu der größten Bewertungsgröße geführt hat, zu wählen.
Die Adaption der Gewichte hat derart zu erfolgen, daß nicht nur eine im Erwartungswert der Optimierungsfunktion optimierte Regelung des Verkehrs erreicht wird, sondern auch eine Varianz der Regelungsergebnisse berücksichtigt wird.
Dies ist insbesondere vorteilhaft, da der Zustandsvektor x(t) das tatsächliche System Verkehr in einigen Aspekten nur unzureichend modelliert und es deshalb zu nicht erwarteten Störungen kommen kann. So hängt die Dynamik des Verkehrs und damit seiner Modellierung von weiteren Faktoren wie beispiels- weise Wetter, Anteil an Lastkraftwagen auf der Straße, ein
Anteil von Wohnmobilen, etc. ab, die nicht immer in den Meßgrößen des Zustandsvektors x(t) integriert sind. Zudem ist nicht immer sichergestellt, daß die Verkehrsteilnehmer sofort den neuen Geschwindigkeitsangaben gemäß dem Verkehrsleitsy- stem Folge leisten.
Eine Regelungsphase an dem realen System gemäß dem Verkehrsleitsystem vollzieht sich gemäß folgenden Schritten:
l.Das Messen des Zustandes xt zum Zeitpunkt t erfolgt an verschiedenen Stellen des Verkehrssystems Verkehr und ergibt einen Zustandsvektor x(t): = (v(t), p(t), q(t)) . Für alle möglichen Aktionen at wird ein Wert der Optimierungsfunktion ermittelt und es wird diejenige Aktion at mit der höchsten Bewertung in der Optimierungsfunktion ausgewählt.
In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] R. Neuneier, Enhancing Q-Learning for Optimal Asset Al- location, Proceedings of the Neural Information Proces- sing Systems, NIPS 1997
[2] R.S. Sutton, Learning to predict by the method of temporal differences, Machine Learning, 3:9-44, 1988
[3] M. Heger, Risk and Reinforcement Learning: Concepts and Dynamic Programming, ZKW Bericht Nr. 8/94, Zentrum für Kognitionswissenschaften, Universität Bremen, ISSN 0947- 0204, Dezember 1994
[4] D.P. Bertsekas, Dynamic Programming and Optimal Control, Athena Scientific, Belmont, MA, 1995

Claims

Patentansprüche
1. Verfahren zur rechnergestützten Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt, bei dem die Ermittlung der Folge von Aktionen derart erfolgt, daß eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimierungsfunkti- on optimiert ist, wobei die Optimierungsfunktion einen variablen Parameter enthält, mit dem ein Risiko, welches die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist, einstellbar ist.
2. Verfahren nach Anspruch 1, bei dem zur Ermittlung ein Verfahren des approximativen Dynamischen Programmierens eingesetzt wird.
3. Verfahren nach Anspruch 2, bei dem das Verfahren des approximativen Dynamischen Programmierens ein auf dem Q-Lernen basierendes Verfahren ist.
4. Verfahren nach Anspruch 3, bei dem die Optimierungsfunktion OFQ im Rahmen des Q-Lernens gemäß folgender Vorschrift gebildet wird:
OFQ = Q(X; wa) ,
wobei mit
x ein Zustand in einem Zustandsraum X, a eine Aktion aus einem Aktionsraum A, aa
• ww ddiiee zzuurr AAkkttion a gehörigen Gewichte eines Funktions- approximators
bezeichnet wird/werden, und bei dem die Gewichte des Funktionsapproximators gemäß folgender Vorschrift adaptiert werden: w?+ι = «t* + ηt κκ(dt) Vθ(xt ; w^)
mit der Abkürzung
dt = r(xt ' at/ xt + l) + Y ax Q χt + 1' a " Q[ χt' 3t 1 aeA ι
wobei mit
• x , xt+l jeweils ein Zustand in dem Zustandsraum X,
• at eine Aktion aus einem Aktionsraum A,
• γ ein vorgebbarer Verringerungsfaktor, a+-
• wt der zur Aktion a gehörige Gewichtsvektor vor dem Ad- aptionsschritt, • wtt ++ ddeerr zzuurr AA'ktion at gehörige Gewichtsvektor nach dem Adaptionsschritt,
• η (t = 1, ...) eine vorgebbare Schrittweitenfolge, • K G [-1; 1] ein Risikokontrollparameter,
κ eine Risikokontrollfunktion κ(ξ) = (l - κsign(ξ))ξ, • VQ(-;-) die Ableitung des Funktionsapproximators nach seinen Gewichten, • r(xt, at, xt+l) eln Gewinn beim Zustandsübergang von dem Zustand xt nach dem Folgezustand xt+l/
bezeichnet wird/werden.
5. Verfahren nach Anspruch 2, bei dem das Verfahren des approximativen Dynamischen Program- mierens ein auf dem TD(λ) -Lernen basierendes Verfahren ist.
6. Verfahren nach Anspruch 5, bei dem die Optimierungsfunktion OFTD im Rahmen des TD(λ)
Lernens gemäß folgender Vorschrift gebildet wird:
wobei mit
• x ein Zustand in einem Zustandsraum X,
• a eine Aktion aus einem Aktionsraum A,
• w die Gewichte eines Funktionsapproximators
bezeichnet wird/werden, und bei dem die Gewichte des Funkti- onsapproximators gemäß folgender Vorschrift adaptiert werden:
wt +l = wt + ηt *κ(dt) • zt
mit den Abkürzungen
dt = ψt, at. xt +l) + YJ(xt +l'' wt) " j(xf" wt).
zt = λ γ • zt_ι + Vj(xt; wt),
z-l = 0
wobei mit
xt, xt+l jeweils ein Zustand in dem Zustandsraum X, at eine Aktion aus einem Aktionsraum A, γ ein vorgebbarer Verringerungsfaktor, wt der Gewichtsvektor vor dem Adaptionsschritt, wt+i der Gewichtsvektor nach dem Adaptionsschritt, ηt (t = 1, ...) eine vorgebbare Schrittweitenfolge,
K e [-1; 1] ein Risikokontrollparameter, κ eine Risikokontrollfunktion KK(ξ) = (l - κsign(ξ))ξ ,
Vj(-;-) die Ableitung des Funktionsapproximators nach seinen
Gewichten, r(xt, at, xt+i) ein Gewinn beim Zustandsübergang von dem Zustand x nach dem Folgezustand xt+l bezeichnet wird/werden.
7. Verfahren nach einem der Ansprüche 1 bis 6, bei dem das System ein technisches System ist, von dem vor der Ermittlung Meßgrößen gemessen werden, die bei der Ermittlung der Folge von Aktionen verwendet werden.
8. Verfahren nach Anspruch 7, bei dem gemäß der Folge von Aktionen das technische System gesteuert wird.
9. Verfahren nach Anspruch 7, bei dem gemäß der Folge von Aktionen das technische System geregelt wird.
10. Verfahren nach einem der Ansprüche 1 bis 9, bei dem das System als ein Markov-Entscheidungsproblem modelliert wird.
11. Verfahren nach einem der Ansprüche 1 bis 10, eingesetzt in einem Verkehrsleitsystem.
12. Verfahren nach einem der Ansprüche 1 bis 10, eingesetzt in einem Kommunikationssystem.
13. Verfahren nach einem der Ansprüche 1 bis 10, eingesetzt zur Durchführung einer Zugangskontrolle in einem Kommunikationsnetz .
14. Verfahren nach einem der Ansprüche 1 bis 10, eingesetzt zur Durchführung eines Routings in einem Kommunikationsnetz.
15. Anordnung zur Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt, mit einem Prozessor, der derart eingerichtet ist, daß die Ermittlung der Folge von Aktionen derart erfolgen kann, daß eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimierungsfunktion op- timiert ist, wobei die Optimierungsfunktion einen variablen Parameter enthält, mit dem ein Risiko, welches die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist, einstellbar ist.
16. Anordnung nach Anspruch 15, eingesetzt zur Steuerung eines technischen Systems.
17. Anordnung nach Anspruch 15, eingesetzt zur Regelung eines technischen Systems.
18. Anordnung nach Anspruch 15, eingesetzt in einem Verkehrsleitsystem.
19. Anordnung nach Anspruch 15, eingesetzt in einem Kommunikationssystem.
20. Anordnung nach Anspruch 15, eingesetzt zur Durchführung einer Zugangskontrolle in einem Kommunikationsnetz .
21. Anordnung nach Anspruch 15, eingesetzt zur Durchführung eines Routings in einem Kommunikationsnetz.
EP99953714A 1998-09-23 1999-09-08 Verfahren und anordnung zur ermittlung einer folge von aktionen für ein system, welches zustände aufweist, wobei ein zustandsübergang zwischen zwei zuständen aufgrund einer aktion erfolgt Withdrawn EP1116172A2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19843620 1998-09-23
DE19843620 1998-09-23
PCT/DE1999/002846 WO2000017811A2 (de) 1998-09-23 1999-09-08 Verfahren und anordnung zur ermittlung einer folge von aktionen für ein system, welches zustände aufweist, wobei ein zustandsübergang zwischen zwei zuständen aufgrund einer aktion erfolgt

Publications (1)

Publication Number Publication Date
EP1116172A2 true EP1116172A2 (de) 2001-07-18

Family

ID=7881965

Family Applications (1)

Application Number Title Priority Date Filing Date
EP99953714A Withdrawn EP1116172A2 (de) 1998-09-23 1999-09-08 Verfahren und anordnung zur ermittlung einer folge von aktionen für ein system, welches zustände aufweist, wobei ein zustandsübergang zwischen zwei zuständen aufgrund einer aktion erfolgt

Country Status (4)

Country Link
US (1) US7047224B1 (de)
EP (1) EP1116172A2 (de)
JP (1) JP2002525763A (de)
WO (1) WO2000017811A2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007036003A1 (en) * 2005-09-30 2007-04-05 University Of South Australia Reinforcement learning for resource allocation in a communications system

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720761B2 (en) * 2002-11-18 2010-05-18 Jpmorgan Chase Bank, N. A. Method and system for enhancing credit line management, price management and other discretionary levels setting for financial accounts
US7363378B2 (en) * 2003-07-01 2008-04-22 Microsoft Corporation Transport system for instant messaging
US7930564B2 (en) * 2006-07-31 2011-04-19 Intel Corporation System and method for controlling processor low power states
DE102008007700A1 (de) * 2007-10-31 2009-05-07 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Exploration von Zuständen eines technischen Systems
GB201009974D0 (en) 2010-06-15 2010-07-21 Trinity College Dublin Decentralised autonomic system and method for use inan urban traffic control environment
DE102011075337A1 (de) * 2011-05-05 2012-11-08 Siemens Ag Verfahren und Vorrichtung zur Ansteuerung einer Anlage
US8615962B1 (en) * 2013-01-14 2013-12-31 GM Global Technology Operations LLC Retention feature for automotive deco trim
CN103217899B (zh) * 2013-01-30 2016-05-18 中国科学院自动化研究所 基于数据的q函数自适应动态规划方法
JPWO2014148564A1 (ja) * 2013-03-19 2017-02-16 株式会社イシダ 定量計量システム及び定量計量方法
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US10871585B2 (en) * 2016-08-03 2020-12-22 Harris Corporation System for processing seismic data based upon linear optimization and related methods
CN109870992B (zh) * 2019-03-26 2021-09-07 合肥工业大学 一种不考虑延时等待的csps系统控制方法
CN110758382B (zh) * 2019-10-21 2021-04-20 南京航空航天大学 一种基于驾驶意图的周围车辆运动状态预测系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608843A (en) 1994-08-01 1997-03-04 The United States Of America As Represented By The Secretary Of The Air Force Learning controller with advantage updating algorithm
WO1997046929A2 (en) * 1996-06-04 1997-12-11 Werbos Paul J 3-brain architecture for an intelligent decision and control system
US6336109B2 (en) * 1997-04-15 2002-01-01 Cerebrus Solutions Limited Method and apparatus for inducing rules from data classifiers

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO0017811A3 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007036003A1 (en) * 2005-09-30 2007-04-05 University Of South Australia Reinforcement learning for resource allocation in a communications system

Also Published As

Publication number Publication date
US7047224B1 (en) 2006-05-16
JP2002525763A (ja) 2002-08-13
WO2000017811A2 (de) 2000-03-30
WO2000017811A3 (de) 2000-12-07

Similar Documents

Publication Publication Date Title
EP1116172A2 (de) Verfahren und anordnung zur ermittlung einer folge von aktionen für ein system, welches zustände aufweist, wobei ein zustandsübergang zwischen zwei zuständen aufgrund einer aktion erfolgt
DE69635092T2 (de) Verfahren zur Zugangssteuerung und Lenkung von Virtuelle Verbindungen
DE69932452T2 (de) Verhandlung von trägerdiensten
DE102017201789B4 (de) Verfahren zum Betrieb eines Kraftfahrzeugs und Kraftfahrzeug
DE60216534T2 (de) Vorrichtung und Verfahren zur Bandbreitenverwaltung, dazugehöriges Rechnerprogramm, und Aufzeichnungsmedium, welches das Programm gespeichert hat
DE19528563A1 (de) Kommunikationsanordnung und Verfahren zur Bewertung von mindestens zwei mehrteiligen Kommunikationsverbindungen zwischen zwei Kommunikationspartnern in einem Mehrknotennetzwerk
DE4445800C1 (de) Verfahren zum Bilden von für die nachfolgende Vermittlung von Verkehrsbeziehungen vorgesehenen Routinginformationen in einem Kommunikationsnetz
EP1133112B1 (de) Verfahren zum Verteilen einer Datenverkehrslast eines Kommunikationsnetzes und Kommunikationsnetz zur Realisierung des Verfahrens
WO1998027525A1 (de) Verfahren zur vervollständigung und/oder verifizierung von den zustand eines verkehrsnetzes betreffenden daten; verkehrszentrale
WO1993008666A1 (de) Verfahren zur nichthierarchischen verkehrslenkung in einem kommunikationsnetz
DE19809401A1 (de) Agentenidentifizierungsvorrichtung, Agentenvorrichtung mit Programmempfangsfunktion, und Netzwerksystem
EP1593237B1 (de) Verfahren zur übertragungsbandbreitenzuteilung in einer pake torientierten kommunikationseinrichtung
EP4046150A1 (de) Verfahren und anordnung zur vorhersage von schaltzeitpunkten einer signalgruppe einer signalanlage zur steuerung eines verkehrsflusses
DE102020202380A1 (de) Verfahren zur Verkehrsbeeinflussung und Verkehrsbeeinflussungseinrichtung
WO2021089237A1 (de) Verfahren zum übertragen einer nachricht in einem kommunikationsnetzwerk zur kommunikation zwischen einem verkehrsteilnehmer und mindestens einem weiteren verkehrsteilnehmer
EP0523276A1 (de) Verfahren und Schaltungsanordnung zum Einrichten von virtuellen Verbindungen über ein ATM-Verbindungsleitungsbündel
EP0699372B1 (de) Mobilfunkübertragungssystem mit kanalvergabe unter anwendung der erweiterten kohonen-netze
DE102021107787A1 (de) Dynamische Dienstqualitätssteuerung für Kraftfahrzeug-Ethernet
WO2020193294A1 (de) Verfahren und vorrichtung zum kompatiblen ansteuern eines geräts mit einem neuen programmcode
EP3340413B1 (de) Verfahren, steuereinrichtung und system zum ermitteln von zustandsdaten eines elektrischen energieversorgungsnetzes
DE60100685T2 (de) Verwaltungsverfahren vor einem telekommunikationsnetzwerk und vorrichtung zur durchführung des Verfahrens
WO2019120683A1 (de) Verfahren zur steigerung einer netzwerkressourcennutzung und bereitstellung genügender service-qualität
DE69922889T2 (de) Verfahren und vorrichtung zur kontrolle der bitratenkonformität von datumzellen
DE102021102855B4 (de) Multi Domain Orchestrator und Verfahren zur domänenübergreifenden Koordination von Service-relevanten Maßnahmen sowie Computerprogrammprodukt und Verwendung
DE60015032T2 (de) Verteiltes Echtzeit-Betriebssystem

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20010115

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

RBV Designated contracting states (corrected)

Designated state(s): DE FR GB

17Q First examination report despatched

Effective date: 20040608

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

18W Application withdrawn

Effective date: 20050616