Adaptive Regelung

In einer Reihe von Blogposts wollen wir uns mit der adaptiven Regelung beschäftigen. Diese Art der Regelungstechnik steht dem maschinellen Lernen sehr nahe und trifft auch deshalb auf neues Interesse.

Einteilung

Die adaptive Regelung ist ein weites Feld, welche viel verschiedene Techniken umfasst. Eine unvollständige Liste mit den gängigen adaptiven Regelungstechniken sei hier angeführt:

Self tuning regulator
Model reference adaptive control
Model identification adaptive controllers
Gain scheduling
Adaptive pole placement
Iterative learning control
Dual adaptive control

Die Geschichte der adaptiven Regelung ist eng mit der Geschichte der Luft- und Raumfahrt verbunden. Gerade die Entwicklung der militärischen Düsenjets mit den unterschiedlichen Betriebspunkten wie Flughöhe oder Unter- und Überschall treibt die adaptive Regelung an. Viele Entwicklungen wurden deshalb von amerikanischen Forschungseinrichtungen wie der NASA oder der AIR FORCE (AFRL/AFOSR) mit angeschoben. Aber auch europäische Länder wie Schweden haben eine starke Tradition in der adaptiven Regelung.

Die adaptive Regelung kann in direkte und indirekte Methoden unterteilt werden. Bei den direkten Methoden werden die Reglerparameter direkt verändert, ohne eine Systemidentifikation durchzuführen. Bei den indirekten Methoden werden erst die Modellparameter identifiziert und darauf aufbauend die Reglerparameter verändert.

Abbildung 1: Direkte und Indirekte Adaptive Regelung

Im Folgendem wollen wir uns auf die Modell-Referenz-Regelung (MRR) beschränken.

Modell-Referenz-Regelung

Die “Modell-Referenz-Regelung (MRR)” ist eine fortschrittliche Technik aus dem Bereich der adaptiven Regelung. Im deutschen Sprachraum ist auch die Bezeichnung “Geregelte Adaption mit parallelem Vergleichsmodell” üblich. Die englische Bezeichnung lautet model reference adpative Systems (MRAS) bzw model reference adaptive control (MRAC). Wir wollen im Weiteren die Abkürzung MRAC verwenden, da diese Bezeichnung mittlerweile die übliche ist.

Die “Modell-Referenz-Regelung (MRR)” kann weiters in die direkte MRR und in die indirekte MRR unterteilt werden.

Direkte Modell-Referenz-Regelung (direct MRAC)

Bei der direkten Modell-Referenz-Regelung werden die Reglerparameter direkt angepasst. Systemparameter werden nicht identifiziert.

Das Bild zeigt ein Blockdiagramm mit dem Signalfluss. Wir sehen, dass der Adaptionsmechanismus eine Funktion des Referenzsignals $u_{r}$ , des Systemausgangs $y_{p}$ und des Folgefehlers $e$ ist ( $θ_{c} = θ_{c} (u_{r}, y_{p}, e)$ ).

Indirekte Modell-Referenz-Regelung (indirect MRAC)

Bei der indirekten Modell-Referenz-Regelung werden die Reglerparameter über die Systemparameter angepasst. Dafür müssen die Systemparameter identifiziert werden.

Das Bild zeigt ein Blockdiagramm mit dem Signalfluss. Wir sehen, dass der Adaptionsmechanismus eine Funktion des Eingangssignals $u_{p}$ , des Systemausgangs $y_{p}$ und des Folgefehlers $e$ ist ( $θ_{p} = θ_{p} (u_{p}, y_{p}, e)$ ).

Adaptionsgesetze

Für die MRAC-Methoden werden verschiedene Adaptionsgesetze

MIT Rule / Sensitivity Derivative
Sign-Algorithm
Sign-Sign-Algorithm
Lyapunov Rule

verwendet, wobei in der modernen Literatur Mechanismen basierend auf der Lyapunov Theorie dominieren.

MIT Rule

Eine Möglichkeit besteht in der Einführung einer quadratischen Fehlerfunktion

$J (θ) = \frac{1}{2} e^{2}$

mit $e = y_{r} - y_{p} (θ)$ welche minimiert werden soll. Um $J$ kleiner werden zu lassen, liegt es nahe, die Parameter in die negative Richtung des Gradient von $J$ zu verändern und wir erhalten das Adaptionsgesetz

$\frac{d θ}{d t} = - γ \frac{\partial J}{\partial θ} = - γ e \frac{\partial e}{\partial θ} .$

Diese Vorschrift wird als MIT Rule bezeichnet. Die partielle Ableitung $\frac{\partial e}{\partial θ}$ wird sensitivity derivative genannt.

Sign-Algorithm und Sign-Sign-Algorithm

Neben der quadratischen Fehlerfunktion können auch andere Fehlerfunktionen gewählt werden. Zum Beispiel können wir den Betrag des Fehlers

$J (θ) = | e |$

verwenden. Der zugehörige Gradient lautet dann

$\frac{d θ}{d t} = - γ \frac{\partial e}{\partial θ} sign (e) .$

Alternative kann das Update mit

$\frac{d θ}{d t} = - γ sign (\frac{\partial e}{\partial θ}) sign (e)$

angegeben werden. Dieses Update wird als Sign-Sign-Algorithmus bezeichnet.

Lyapunov Rule

Die oben eingeführten Adaptionsgesetze liefern keine Garantie, dass der Fehler $e$ zu null konvergiert. Deshalb basieren die meisten neuen Adaptionsgesetze auf der Lyapunov Theorie.

Für die Herleitung einer Lyapunov Rule wird ein Fehler

$e = y_{r} - y_{p} (θ)$

eingeführt, wobei der Systemausgang $y_{p}$ von den Adaptionsparameter abhängig ist. Durch die zeitlich Ableitung

$\dot{e} = {\dot{y}}_{r} - {\dot{y}}_{p} (θ)$

erhalten wir eine Differenzialgleichung für den Folgefehler. Wir wollen nun zeigen, dass der Folgefehler für $t \to \infty$ gegen null geht, $e \to 0$ .

Dazu wählen wir einen Lyapunov-Kanidaten

$V (e, \tilde{θ}) > 0$

in Abhängigkeit des Signalfehlers $e$ und des Fehlers der Adaptionsparameter $\tilde{θ} = θ^{*} - θ$ . Zentral ist nun die zeitliche Ableitung der Lyapunov-Funktion

$\dot{V} (e, \tilde{θ}) = ϕ (e, \dot{e}, \tilde{θ}, \dot{\tilde{θ}}) \leq 0$

in welche die Ableitung des Fehlers $\dot{e}$ , als auch die Ableitung der Adaptionsparameter $\dot{\tilde{θ}}$ auftreten. $\dot{e}$ können wir durch die obige Gleichung ersetzen. Wenn es uns jetzt gelingt auch $\dot{\tilde{θ}}$ durch eine Gleichung zu eliminieren, sodass gilt $\dot{V} (e, \tilde{θ}) \leq 0$ , haben wir einen Adaptionsmechanismus hergeleitet.

Eine erweiterte Lyapunov Theorie basierend auf dem Barbalat’s Lemma muss noch angewendet werden, um $e \to 0$ zu zeigen.

Die adaptive Regelung und das maschinelles Lernen

Die adaptive Regelung und das maschinelle Lernen teilen sich viele Ideen und Tools. Das wissenschaftliche Paper A Historical Perspective of Adaptive Control and Learning gibt einen guten historischen Überblick über die viele Verbindungen. Das Paper Connections Between Adaptive Control and Optimization in Machine Learning zeigt die vielen Ähnlichkeiten hinsichtlich der Optimierungen.

Auch das bekannte Paper Reinforcement learning is direct adaptive optimal control von Sutton und Barto weist schon im Titel auf die starke Verbindung zwischen dem bestärkenden Lernen und der adaptiven Regelung hin.

Es ist wohl anzunehmen, dass der Austausch zwischen der adaptiven Regelung und dem maschinellen Lernen in den nächsten Jahren erheblich zunehmen wird. Die adaptive Regelung wird in einigen Industrien (Luft- und Raum, Papierindustrie, …) seit Jahrzehnten eingesetzt und ist voll anerkannt. Eine Integration von Methoden aus dem maschinellen Lernen dürfte in diesen Industrien kaum auf Widerstand stoßen.

RBF-MRAC, GP-MRAC und D-MRAC

Unstrukturierte Nichtlinearitäten werden innerhalb der MRAC Methoden traditionell mit Radial Basis Function angesetzt. RBFs haben sich in vielen Bereichen der adaptiven Regelung bewährt. Aber auch neuronale Netze werden seit den 1980 innerhalb der adaptiven Regelung verwendet, deren Bedeutung aber noch nicht an die RBFs heranreichen.

Mit GP-MRAC und D-MRAC werden neuere Techniken aus dem maschinellen und bestärkenden Lernen auf die MRAC-Methoden übertragen. Diese Techniken kommen mit gewissen Garantien. Die D-MRAC Methode ist im Paper Deep Model Reference Adaptive Control nachzulesen.

Referenzen

Adaptive Control, Second Editon, 2008 (Karl J. Aström, Björn Wittenmark)
Model-Reference Adaptive Control: A primer, 2018 (Nhan T. Nguyen)
Robust Adaptive control, 2012 (Petros A. Ioannou, Jing Sun)
A Historical Perspective of Adaptive Control and Learning, 2021 (Anuradha M. Annaswamy, Alexander L. Fradkov)
Connections Between Adaptive Control and Optimization in Machine Learning, 2021 (Joseph E. Gaudio et al)
Deep Model Reference Adaptive Control 2019 (Girish Joshi, Girish Chowdhary)
Reinforcement learning is direct adaptive optimal control, 1992 (Richard S. Sutton, Andrew G. Barto, Ronald J. Williams)