Bevor wir uns der zeitkontinuierlichen Regelungstechnik zuwenden, wollen wir einen Überblick über alle Methoden der modernen Kontrolltheorie gewinnen. Brian Douglas hat zu diesem Zweck, die Regelungstechnikkarte entworfen. Die Vorträge und Videos von Brian Douglas sind herausragende Beispiele großartiger Wissenskommunikation.
Nehmen wir uns ein paar Momente, und studieren wir die gezeigte Regelungstechnikkarte.
Die Karte ist in die fünf Gebiete Modellierung und Simulation, Systemanalyse, Regler, Planung und Zustandsschätzung unterteilt. Jedes dieser Gebiete reicht aus, um ein ganzes Wissenschaftsleben auszufüllen. Ein paar Beispiele der Modellierung, der Systemanalyse und der Regelung wurden auf diesem Blog schon besprochen. Vor allem die vielen Verbindungen zwischen der optimalen Regelung und dem bestärkenden Lernen standen bisher im Vordergrund. In der Karte wird das bestärkende Lernen in das Untergebiet der intelligenten Regelungen eingeordnet. Alternativ könnten wir das bestärkende Lernen auch der adaptiven Regelung und dort wiederum der dualen Regelung zuordnen. Eine eindeutige Zuordnung ist aber durch die Vielzahl an Methoden heute kaum mehr möglich.
Durch die zunehmende Dominanz der englischen Sprache in der Technik, ist es zu empfehlen auch die englischen Begriffe zu studieren. Für einige moderne Vorgehensweisen gibt es keine guten oder gängigen Übersetzungen in die deutsche Sprache.
Machine Learning, Control Theory and Estimation Theory
Bisher haben wir immer die Verbindung zwischen der Kontrolltheorie und dem bestärkenden Lernen betont. Die Bedeutung der Kontrolltheorie reicht aber über das bestärkende Lernen hinaus. Das folgende Bild zeigt die vielen Überschneidungen zwischen dem maschinellen Lernen, der Kontrolltheorie und der Schätztheorie. Aber auch das Deep Learning kann in die Kontrolltheorie eingeordnet werden.
So kann zum Beispiel der Backpropagation-Algorithmus für das Trainieren von neuronalen Netzen, elegant mit Methoden der optimalen Regelung beschrieben werden. Das ist kein Zufall, da der Backpropagation-Algorithmus ursprünglich innerhalb der Kontrolltheorie entwickelt, und später durch eine Reihe von Wissenschaftler auf das Trainieren von neuronalen Netzen übertragen wurde. Eine Tatsache, die Jürgen Schmidhuber völlig zurecht, immer wieder hervorhebt (Who invented backpropagation?). Die Entwicklung des Backpropagation Algorithmus wird ebenso in der ADP-Literatur vorgetragen (ADP = Adaptive / Abstact Dynamic Programming). Aber auch innerhalb des Konnektionismus war man sich dieser Verbindung in den späten 1980 Jahren vollkommen bewusst. Zum Beispiel schreibt Yann LeCun in seinem wissenschaftlichen Aufsatz A Theoretical Framework for Back-Propagation:
“From a historical point of view, back-propagation had been used in the field of optimal control long before its application to connectionist systems has been (independently) proposed. Nevertheless, the interpretation of back-propagation in the context of connectionist systems, as well as most related concepts are recent, and the historical and scientific importance of [Rumelhart et al. 1986] should not be overlooked. The concepts are new, if not the algorithm.” Yann LeCun 1988
Dieses Paper sei allen Regelungstechnikern ans Herz gelegt, welche den Backpropagation-Algorithmus in einer systematischen Weise verstehen wollen.
Dieser Ursprung erweist sich nicht nur als historisch interessant, sondern hat sich gerade in den letzten Jahren als produktiv erwiesen. Zum Beispiel ist dieser Ursprung für das sehr einflussreiche Paper Neural Ordinary Differential Equations, Chen et al. zentral. Dort wird ein zeitkontinuierlicher Backpropagation Algorithmus im Anhang B gezeigt. Es sei darauf hingewiesen, dass dieses Paper zwar enorme Reichweite erzeugte, aber keinesfalls das erste seiner Art war.
Auch für die Entwicklung verbesserter Trainingsmethoden im zeitdiskreten Fall, erweist sich die Kontrolltheorie als sehr hilfreich (Robust Deep Learning as Optimal Control: Insights and Convergence Guarantees, Seidman et al.). Mittlerweile gibt es eine Vielzahl an wissenschaftlichen Aufsätzen, welche diesen Zusammenhang verwenden.
Zeitkontinuierliche Regelung
Wir werden auf diesem Blog sowohl neuronale Netze, als auch den Backpropagation-Algorithmus noch besprechen. Zuerst wenden wir uns aber der (linearen) zeitkontinuierlichen Regelung zu. Kaum ein technisches Gerät kommt ohne diese Techniken aus. Täglich sind wir von diesen Methoden und Algorithmen umgeben, ohne diese auch nur ansatzweise zur Kenntnis zu nehmen. Die Liste reicht von einfachen Geräten wie Wasserkocher, Toaster, E-Herd bis hin zu komplexen Objekten wie Smartphones, Autos, Satelliten oder moderne Rechenzentren. Ein modernes Leben wäre ohne diese Methoden wohl kaum möglich. Auch zukünftige großtechnische Anlagen wie Quantencomputer oder Fusionsreaktoren werden voll von zeitkontinuierlichen Regelschleifen sein.
Eine Arxiv-Suche (“continuous time” reinforcement learning) zeigt auch das gestiegene Interesse der Machine Learning Community an zeitkontinuierlichen Problemen. Eine Entwicklung, welche zum Beispiel vom Physiker und Mathematiker Freeman J. Dyson in einer Serie von Vorträgen und Artikel gefordert wurde.
„The failure of artificial intelligence indicates we are on the wrong track. You are trying to imitate an analogue device with a digital device.“ Freeman J. Dyson ~2014
„The computers do a great job, and we won’t go back to analogue for many practical purposes, but when it comes to understanding, analogue is the key“ Freeman J. Dyson ~2014
Durch Dyson’s Meinung motiviert, wenden wir uns der zeitkontinuierlichen Regelung zu.
Referenzen
- Engineering Media, Brian Douglas
- Computational Models for Neuromuscular Function, Valero-Cuevas et al., 2009
- Who invented backpropagation?, Jürgen Schmidhuber
- A Theoretical Framework for Back-Propagation, Yann LeCun, 1988
- Neural Ordinary Differential Equations, Chen at el.
- Robust Deep Learning as Optimal Control: Insights and Convergence Guarantees, Seidman at. el.
- An Optimal Control Approach to Deep Learning and Applications to Discrete-Weight Neural Networks, Li and Hao
- Wikipedia: Konnektionismus
- Wikipedia: Dual Control Theory
- We are on the wrong track with artificial intelligence, Freeman Dyson
- IS LIFE ANALOG OR DIGITAL?, Freeman Dyson