In einer Reihe von Blogposts wollen wir uns mit der adaptiven Regelung beschäftigen. Diese Art der Regelungstechnik steht dem maschinellen Lernen sehr nahe und trifft auch deshalb auf neues Interesse.
Einteilung
Die adaptive Regelung ist ein weites Feld, welche viel verschiedene Techniken umfasst. Eine unvollständige Liste mit den gängigen adaptiven Regelungstechniken sei hier angeführt:
- Self tuning regulator
- Model reference adaptive control
- Model identification adaptive controllers
- Gain scheduling
- Adaptive pole placement
- Iterative learning control
- Dual adaptive control
Die Geschichte der adaptiven Regelung ist eng mit der Geschichte der Luft- und Raumfahrt verbunden. Gerade die Entwicklung der militärischen Düsenjets mit den unterschiedlichen Betriebspunkten wie Flughöhe oder Unter- und Überschall treibt die adaptive Regelung an. Viele Entwicklungen wurden deshalb von amerikanischen Forschungseinrichtungen wie der NASA oder der AIR FORCE (AFRL/AFOSR) mit angeschoben. Aber auch europäische Länder wie Schweden haben eine starke Tradition in der adaptiven Regelung.
Die adaptive Regelung kann in direkte und indirekte Methoden unterteilt werden. Bei den direkten Methoden werden die Reglerparameter direkt verändert, ohne eine Systemidentifikation durchzuführen. Bei den indirekten Methoden werden erst die Modellparameter identifiziert und darauf aufbauend die Reglerparameter verändert.
Im Folgendem wollen wir uns auf die Modell-Referenz-Regelung (MRR) beschränken.
Modell-Referenz-Regelung
Die “Modell-Referenz-Regelung (MRR)” ist eine fortschrittliche Technik aus dem Bereich der adaptiven Regelung. Im deutschen Sprachraum ist auch die Bezeichnung “Geregelte Adaption mit parallelem Vergleichsmodell” üblich. Die englische Bezeichnung lautet model reference adpative Systems (MRAS) bzw model reference adaptive control (MRAC). Wir wollen im Weiteren die Abkürzung MRAC verwenden, da diese Bezeichnung mittlerweile die übliche ist.
Die “Modell-Referenz-Regelung (MRR)” kann weiters in die direkte MRR und in die indirekte MRR unterteilt werden.
Direkte Modell-Referenz-Regelung (direct MRAC)
Bei der direkten Modell-Referenz-Regelung werden die Reglerparameter direkt angepasst. Systemparameter werden nicht identifiziert.
Das Bild zeigt ein Blockdiagramm mit dem Signalfluss. Wir sehen, dass der Adaptionsmechanismus eine Funktion des Referenzsignals
Indirekte Modell-Referenz-Regelung (indirect MRAC)
Bei der indirekten Modell-Referenz-Regelung werden die Reglerparameter über die Systemparameter angepasst. Dafür müssen die Systemparameter identifiziert werden.
Das Bild zeigt ein Blockdiagramm mit dem Signalfluss. Wir sehen, dass der Adaptionsmechanismus eine Funktion des Eingangssignals
Adaptionsgesetze
Für die MRAC-Methoden werden verschiedene Adaptionsgesetze
- MIT Rule / Sensitivity Derivative
- Sign-Algorithm
- Sign-Sign-Algorithm
- Lyapunov Rule
verwendet, wobei in der modernen Literatur Mechanismen basierend auf der Lyapunov Theorie dominieren.
MIT Rule
Eine Möglichkeit besteht in der Einführung einer quadratischen Fehlerfunktion
mit
Diese Vorschrift wird als MIT Rule bezeichnet. Die partielle Ableitung
Sign-Algorithm und Sign-Sign-Algorithm
Neben der quadratischen Fehlerfunktion können auch andere Fehlerfunktionen gewählt werden. Zum Beispiel können wir den Betrag des Fehlers
verwenden. Der zugehörige Gradient lautet dann
Alternative kann das Update mit
angegeben werden. Dieses Update wird als Sign-Sign-Algorithmus bezeichnet.
Lyapunov Rule
Die oben eingeführten Adaptionsgesetze liefern keine Garantie, dass der Fehler
Für die Herleitung einer Lyapunov Rule wird ein Fehler
eingeführt, wobei der Systemausgang
erhalten wir eine Differenzialgleichung für den Folgefehler. Wir wollen nun zeigen, dass der Folgefehler für
Dazu wählen wir einen Lyapunov-Kanidaten
in Abhängigkeit des Signalfehlers
in welche die Ableitung des Fehlers
Eine erweiterte Lyapunov Theorie basierend auf dem Barbalat’s Lemma muss noch angewendet werden, um
Die adaptive Regelung und das maschinelles Lernen
Die adaptive Regelung und das maschinelle Lernen teilen sich viele Ideen und Tools. Das wissenschaftliche Paper A Historical Perspective of Adaptive Control and Learning gibt einen guten historischen Überblick über die viele Verbindungen. Das Paper Connections Between Adaptive Control and Optimization in Machine Learning zeigt die vielen Ähnlichkeiten hinsichtlich der Optimierungen.
Auch das bekannte Paper Reinforcement learning is direct adaptive optimal control von Sutton und Barto weist schon im Titel auf die starke Verbindung zwischen dem bestärkenden Lernen und der adaptiven Regelung hin.
Es ist wohl anzunehmen, dass der Austausch zwischen der adaptiven Regelung und dem maschinellen Lernen in den nächsten Jahren erheblich zunehmen wird. Die adaptive Regelung wird in einigen Industrien (Luft- und Raum, Papierindustrie, …) seit Jahrzehnten eingesetzt und ist voll anerkannt. Eine Integration von Methoden aus dem maschinellen Lernen dürfte in diesen Industrien kaum auf Widerstand stoßen.
RBF-MRAC, GP-MRAC und D-MRAC
Unstrukturierte Nichtlinearitäten werden innerhalb der MRAC Methoden traditionell mit Radial Basis Function angesetzt. RBFs haben sich in vielen Bereichen der adaptiven Regelung bewährt. Aber auch neuronale Netze werden seit den 1980 innerhalb der adaptiven Regelung verwendet, deren Bedeutung aber noch nicht an die RBFs heranreichen.
Mit GP-MRAC und D-MRAC werden neuere Techniken aus dem maschinellen und bestärkenden Lernen auf die MRAC-Methoden übertragen. Diese Techniken kommen mit gewissen Garantien. Die D-MRAC Methode ist im Paper Deep Model Reference Adaptive Control nachzulesen.
Referenzen
- Adaptive Control, Second Editon, 2008 (Karl J. Aström, Björn Wittenmark)
- Model-Reference Adaptive Control: A primer, 2018 (Nhan T. Nguyen)
- Robust Adaptive control, 2012 (Petros A. Ioannou, Jing Sun)
- A Historical Perspective of Adaptive Control and Learning, 2021 (Anuradha M. Annaswamy, Alexander L. Fradkov)
- Connections Between Adaptive Control and Optimization in Machine Learning, 2021 (Joseph E. Gaudio et al)
- Deep Model Reference Adaptive Control 2019 (Girish Joshi, Girish Chowdhary)
- Reinforcement learning is direct adaptive optimal control, 1992 (Richard S. Sutton, Andrew G. Barto, Ronald J. Williams)