Cartpole-Beispiel

Bereit, Reinforcement Learning in Aktion zu sehen? In diesem Tutorial nehmen wir die klassische Balancier-Herausforderung an, bei der du beobachten kannst, wie deine KI lernt, eine Stange auf einem beweglichen Wagen aufrecht zu halten.

Die Cartpole-Herausforderung verbindet Einfachheit mit visuellem Feedback und ist damit perfekt für Reinforcement Learning geeignet. Du schiebst einen Wagen nach links oder rechts, und die Physik bestimmt, ob die daran befestigte Stange im Gleichgewicht bleibt oder umkippt. In jedem Zeitschritt trifft dein Agent eine Entscheidung, und du hast die Freude zu beobachten, wie dein Algorithmus allmählich die Aufgabe meistert.

Einrichten deines Projekts

Wir verwenden SciSharp/Gym.NET, um unsere simulierte physikalische Umgebung bereitzustellen.

Du kannst die Anleitung befolgen oder das vollständige Projekt herunterladen, wenn du möchtest.

Installieren wir die notwendigen Pakete:

dotnet add package RLMatrix
dotnet add package RLMatrix.Toolkit
dotnet add package Gym.NET
dotnet add package Gym.NET.Environments
dotnet add package Gym.NET.Rendering.WinForm

Aufbau der Umgebung

Hier ist unsere Implementierung der Cartpole-Umgebung:

using System;
using System.Threading.Tasks;
using Gym.Environments.Envs.Classic;
using Gym.Rendering.WinForm;
using RLMatrix.Toolkit;
using NumSharp;

namespace MyEnv
{
    [RLMatrixEnvironment]
    public partial class CartPoleEnvironment
    {
        private CartPoleEnv myEnv;
        private float[] myState;
        private int stepCounter;
        private const int MaxSteps = 100000;
        private bool isDone;

        public CartPoleEnvironment()
        {
            InitialiseAsync();
        }

        private void InitialiseAsync()
        {
            myEnv = new CartPoleEnv(WinFormEnvViewer.Factory);
            ResetEnvironment();
        }

        [RLMatrixObservation]
        public float GetCartPosition() => myState[0];

        [RLMatrixObservation]
        public float GetCartVelocity() => myState[1];

        [RLMatrixObservation]
        public float GetPoleAngle() => myState[2];

        [RLMatrixObservation]
        public float GetPoleAngularVelocity() => myState[3];

        [RLMatrixActionDiscrete(2)]
        public void ApplyForce(int action)
        {
            if (isDone)
                ResetEnvironment();

            var (observation, reward, done, _) = myEnv.Step(action);
            myEnv.Render();
            myState = ToFloatArray(observation);
            isDone = done;
            stepCounter++;

            if (stepCounter > MaxSteps)
                isDone = true;
        }

        private float[] ToFloatArray(NDArray npArray)
        {
            double[] doubleArray = npArray.ToArray<double>();
            return Array.ConvertAll(doubleArray, item => (float)item);
        }

        [RLMatrixReward]
        public float CalculateReward()
        {
            return isDone ? 0 : 1;
        }

        [RLMatrixDone]
        public bool IsEpisodeFinished()
        {
            return isDone;
        }

        [RLMatrixReset]
        public void ResetEnvironment()
        {
            myEnv.Reset();
            myState = new float[4] { 0, 0, 0, 0 };
            isDone = false;
            stepCounter = 0;
        }
    }
}

Einrichten des Trainings

Hier ist der Code für das Training, der unserem Agenten das Balancieren beibringen wird:

using RLMatrix.Agents.Common;
using RLMatrix;
using MyEnv;

Console.WriteLine("Starting cart-pole training...\n");

// Lernparameter konfigurieren
var learningSetup = new PPOAgentOptions(
    batchSize: 8,
    ppoEpochs: 8,
    memorySize: 1000,
    gamma: 0.99f,
    width: 128,
    entropyCoefficient: 0.01f,
    lr: 1E-02f
);

// Umgebung erstellen und an den Agenten anhängen
var environment = new CartPoleEnvironment().RLInit(maxStepsSoft: 1200, maxStepsHard: 1200);
var env = new List<IEnvironmentAsync<float[]>> {
    environment,
    //new CartPoleEnvironment().RLInit() //auskommentieren, um mit mehreren Umgebungen zu trainieren
};

// Agenten initialisieren
var agent = new LocalDiscreteRolloutAgent<float[]>(learningSetup, env);

// Trainieren bis zur Konvergenz
for (int i = 0; i < 100000; i++)
{
    await agent.Step();
}

Console.WriteLine("\nTraining complete!");
Console.ReadLine();

Die einfache Belohnung von +1 pro Zeitschritt ist täuschend leistungsstark. Deep-Reinforcement-Learning-Algorithmen optimieren natürlicherweise für langfristige Ziele und entdecken, dass subtile, präventive Anpassungen zu längeren Balancezeiten und höheren kumulativen Belohnungen führen.

PPO in RLMatrix: Was ist anders

Die PPO-Implementierung in RLMatrix ist für verteiltes Training optimiert, was einige Unterschiede zu dem erzeugt, was du in Forschungspapieren oder anderen Frameworks sehen könntest:

Wissenswert, wenn du Implementierungen vergleichst

Interpretation der Batch-Größe: In RLMatrix bezieht sich batchSize auf die Anzahl der vollständigen Episoden, die vor der Modellaktualisierung gesammelt werden – nicht auf die Anzahl der einzelnen Schritte wie in vielen anderen Implementierungen.
On-Policy-Konsistenz: PPO lernt ausschließlich aus Erfahrungen, die mit der aktuellen Richtlinie gesammelt wurden. Das Sammeln mehrerer vollständiger Episoden vor der Aktualisierung hilft, stabile Gradientenschätzungen zu erstellen und mehr Umgebungsdynamik zu erfassen, ohne Off-Policy-Fehler einzuführen, die bei einer Aktualisierung der Richtlinie mitten in einer Episode auftreten würden.
Mehrfache Trainingsdurchläufe: Der Parameter ppoEpochs steuert, wie viele Durchläufe wir durch die gesammelten Erfahrungen machen. Da wir die Daten danach verwerfen, wollen wir durch mehrfache Durchläufe maximalen Nutzen daraus ziehen.

Während DQN (aus unseren früheren Tutorials) für einfache Aufgaben effizienter bezüglich der Stichprobennutzung sein kann, liefert PPO im Allgemeinen ein stabileres Training ohne umfangreiches Hyperparameter-Tuning. Das macht es besonders gut geeignet für anspruchsvolle Steuerungsprobleme.

Der speichersparende Trick, den du kennen musst

Schau dir diese Zeile in unserem Trainingscode an:

var environment = new CartPoleEnvironment().RLInit(maxStepsSoft: 1200, maxStepsHard: 1200);

Diese unscheinbare Parameterkonfiguration enthält den Schlüssel zum Training mit sehr langen Episoden, ohne den GPU-Speicher zu überlasten. Lass mich erklären:

Was passiert, wenn wir diese Werte ändern?

var environment = new CartPoleEnvironment().RLInit(maxStepsSoft: 200, maxStepsHard: 1200);

Jetzt geschieht die Magie:

Wir sammeln Belohnungen und berechnen Gradienten nur für die ersten 200 Schritte
Die Simulation läuft natürlich bis zu 1200 Schritte oder bis zum Scheitern weiter
Der GPU-Speicherverbrauch sinkt erheblich

Wenn du diese Konfiguration ausführst, überprüfe die Belohnungsgrafiken – du wirst feststellen, dass keine Belohnung 200 (unsere weiche Grenze) überschreitet, obwohl die Cartpole-Physik über diesen Punkt hinaus weiterläuft. Öffne deinen Task-Manager und beobachte die Speichereinsparungen in Echtzeit.

Diese Technik wird für komplexe Umgebungen, in denen Episoden unendlich lang laufen können, unverzichtbar. Anstatt mit Out-of-Memory-Fehlern abzustürzen, kontrollierst du genau, wie viel Rechenaufwand investiert wird, während die natürliche Umgebungsdynamik erhalten bleibt.

Den Lernprozess beobachten

Wenn du dieses Training startest, öffnet sich ein Fenster mit der Cartpole-Umgebung. Anfangs wird die Stange schnell umkippen – dein Agent hat keine Ahnung, was er tut. Aber innerhalb weniger Minuten wirst du eine bemerkenswerte Transformation beobachten:

Zunächst macht der Agent zufällige Bewegungen ohne Strategie
Dann beginnt er zu reagieren, wenn die Stange bereits fällt (zu spät!)
Er lernt allmählich, Korrekturbewegungen immer früher auszuführen
Schließlich macht er subtile, präventive Anpassungen und hält die Stange perfekt im Gleichgewicht

Diese sichtbare Progression macht Cartpole zu einem so befriedigenden Lernbeispiel. Du siehst nicht nur, wie sich Zahlen in einem Diagramm verbessern – du beobachtest, wie deine KI vor deinen Augen eine Fertigkeit entwickelt.

Teste dein Verständnis

Reinforcement Learning bei Cartpole verstehen

Question 1: Warum gilt Cartpole als ideales Beispiel für Reinforcement Learning?

Es erfordert minimale Rechenressourcen im Vergleich zu anderen RL-Problemen

Obwohl Cartpole weniger ressourcenintensiv ist als einige komplexe Umgebungen, betont das Tutorial andere Gründe für seinen Wert als Lernbeispiel. Die Recheneffizienz ist nicht sein Hauptvorteil.

Es bietet visuelles Feedback, bei dem du die Fertigkeitsentwicklung deines Agenten in Echtzeit beobachten kannst

Genau richtig! Das Tutorial hebt diesen visuellen Aspekt als das hervor, was Cartpole so befriedigend macht: 'Du siehst nicht nur, wie sich Zahlen in einem Diagramm verbessern – du beobachtest, wie deine KI vor deinen Augen eine Fertigkeit entwickelt.' Diese unmittelbare, intuitive Feedbackschleife macht den Lernprozess greifbar.

Es ist das einzige Reinforcement-Learning-Problem mit einer garantierten optimalen Lösung

Cartpole hat keine einzigartig garantierte optimale Lösung im Vergleich zu anderen RL-Problemen. Viele RL-Aufgaben haben optimale oder nahezu optimale Lösungen. Der Wert von Cartpole liegt woanders, besonders in seinem intuitiven visuellen Feedback.

Need a hint?

Überlege, was Cartpole laut Tutorial zu einem besonders befriedigenden Lernbeispiel macht.

Question 2: Welche Belohnungsstrategie verwendet die Cartpole-Umgebung, um den Agenten zum Balancieren der Stange zu ermutigen?

Eine große positive Belohnung nur, wenn die Stange perfekt vertikal bleibt

Die Umgebung belohnt nicht speziell die perfekte Vertikalität. Die Suche nach absoluter Perfektion würde ein Problem mit spärlichen Belohnungen schaffen, was das Lernen viel schwieriger machen würde.

Eine +1 Belohnung für jeden Zeitschritt, in dem die Stange oben bleibt, 0 wenn sie fällt

Richtig! Der Code zeigt, dass `CalculateReward()` 1 zurückgibt, wenn die Episode weiterläuft, und 0, wenn sie beendet ist. Dieser einfache Ansatz schafft einen mächtigen Anreiz: Je länger die Stange balanciert bleibt, desto mehr Gesamtbelohnung erhält der Agent, was ihn natürlich dazu ermutigt, das Balancieren zu beherrschen.

Eine abgestufte Belohnung basierend darauf, wie nahe die Stange an der Vertikalen ist (höhere Belohnung für vertikalere Position)

Obwohl dieser Ansatz funktionieren könnte, ist es nicht das, was unsere Implementierung verwendet. Unsere Umgebung verwendet eine einfachere binäre Belohnung: +1 für jeden überlebten Zeitschritt, unabhängig vom genauen Winkel, und 0, wenn die Episode endet.

Need a hint?

Überprüfe die `CalculateReward()`-Methode im Umgebungscode, um genau zu sehen, welche Belohnung wann gegeben wird.

Question 3: Was ist der Zweck der Festlegung unterschiedlicher Werte für maxStepsSoft und maxStepsHard?

Die Lerngeschwindigkeit künstlich zu erhöhen, indem Episoden vorzeitig beendet werden

Es geht nicht darum, das Lernen künstlich zu beschleunigen. Tatsächlich können Episoden immer noch bis zu ihrem natürlichen Abschluss laufen, bis zu maxStepsHard. Die Unterscheidung dient einem anderen Zweck im Zusammenhang mit der Recheneffizienz.

Den GPU-Speicherverbrauch zu reduzieren, indem Belohnungsberechnungen begrenzt werden, während die natürliche Umgebungsprogression ermöglicht wird

Das ist richtig! Wie das Tutorial erklärt, ermöglicht diese Technik, 'genau zu kontrollieren, wie viel Rechenaufwand investiert wird, während die natürliche Umgebungsdynamik erhalten bleibt.' Du sammelst Belohnungen und Gradienten nur bis maxStepsSoft, aber die Simulation läuft natürlich bis maxStepsHard weiter, was den Speicherverbrauch für lange Episoden erheblich reduziert.

Ein Curriculum zu erstellen, bei dem der Agent zuerst kurze Episoden lernt, bevor er längere in Angriff nimmt

Obwohl Curriculum-Learning eine gültige RL-Technik ist, ist das nicht der Zweck der Soft/Hard-Schrittgrenzen. Diese Parameter erhöhen nicht progressiv die Episodenlänge - sie verwalten Rechenressourcen bei gleichzeitiger Aufrechterhaltung des natürlichen Umgebungsverhaltens.

Need a hint?

Überlege, was mit dem GPU-Speicher passiert, wenn Episoden sehr lang werden, und wie diese Parameterkonfiguration hilft, dieses Problem zu lösen.

Question 4: Wie unterscheidet sich RLMatrix's Interpretation des batchSize-Parameters in PPO von Standardimplementierungen?

Er bezieht sich auf die Anzahl der vollständigen Episoden, die vor der Modellaktualisierung gesammelt werden, nicht auf einzelne Schritte

Genau richtig! Das Tutorial weist ausdrücklich auf diesen Unterschied hin: 'In RLMatrix bezieht sich batchSize auf die Anzahl der vollständigen Episoden, die vor der Modellaktualisierung gesammelt werden – nicht auf die Anzahl der einzelnen Schritte wie in vielen anderen Implementierungen.' Dies ist ein wichtiger Unterschied bei der Konfiguration deines Trainings.

Er bestimmt die Größe der versteckten Schichten des neuronalen Netzwerks

Die Batch-Größe bestimmt nicht die Architektur des neuronalen Netzwerks. In RLMatrix steuert der Parameter 'width' die Größe der versteckten Schichten. Die Batch-Größe bezieht sich stattdessen darauf, wie viel Erfahrung vor Lernaktualisierungen gesammelt wird.

Er steuert, wie viele Trainingsschritte vor der Bewertung des Agenten durchgeführt werden sollen

Das ist nicht die Bedeutung der Batch-Größe in RLMatrix's PPO-Implementierung. Die Batch-Größe bezieht sich speziell auf die Datensammlung für das Lernen, nicht auf den Bewertungszeitplan.

Need a hint?

Das Tutorial enthält einen speziellen Abschnitt, der die Unterschiede in der PPO-Implementierung von RLMatrix erklärt - überprüfe, was es über die Interpretation der Batch-Größe sagt.

Question 5: Welche Transformation im Verhalten des Agenten würdest du im Laufe des Trainings erwarten?

Der Agent wird zunehmend komplexe Bewegungsmuster entwickeln, die zufällig erscheinen, aber das Gleichgewicht halten

Erfolgreiche Agenten entwickeln typischerweise keine zufällig aussehenden Bewegungen. Die Progression tendiert eher zu subtiler, gezielter Kontrolle als zu komplexen oder chaotischen Mustern.

Der Agent wird von zufälligen Bewegungen über reaktive Korrekturen zu präventiven Anpassungen fortschreiten

Genau wie im Tutorial beschrieben! Der Agent durchläuft diese Progression: zufällige Bewegungen → reaktive Korrekturen (wenn die Stange bereits fällt) → frühere Eingriffe → subtile präventive Anpassungen. Dies zeigt, wie er lernt, Probleme zu antizipieren, anstatt nur auf sie zu reagieren.

Der Agent wird lernen, den Wagen jederzeit perfekt auf dem Bildschirm zu zentrieren

Die Zentrierung des Wagens ist nicht unbedingt die optimale Strategie. Das Ziel ist es, die Stange im Gleichgewicht zu halten, was strategische Bewegungen des Wagens erfordern kann. Perfekte Zentrierung wird nicht als Teil der erwarteten Verhaltensprogression erwähnt.

Need a hint?

Das Tutorial skizziert eine spezifische Verhaltensprogression, die du beobachten wirst, während der Agent lernt. Suche nach der nummerierten Liste, die diese Transformation beschreibt.

Nächste Schritte

In diesem Tutorial hast du:

Eine Echtzeit-Physiksimulation für Reinforcement Learning eingerichtet
Einen vollständigen Agenten implementiert, um ein klassisches Steuerungsproblem zu meistern
Gelernt, wie man Speicher effizient mit dem Soft/Hard-Beendigungstrick verwaltet
Verstanden, wie sich RLMatrix’s PPO-Implementierung von Standardimplementierungen unterscheidet

Als Nächstes werden wir die gleiche Umgebung ohne Toolkit implementieren, was dir Einblicke in das gibt, was hinter den eleganten Attributen steckt, die wir verwendet haben.

Cartpole ohne Toolkit Sieh, was unter der Haube passiert, indem du Cartpole ohne die Toolkit-Abstraktion implementierst.