Seite 1 von 1

Q-Learning: On-Policy oder Off-Policy?

Verfasst: 19. Jul 2018 09:52
von Lorenz123
Hallo,

im Foliensatz zu Reinforcement Learning ist mir aufgefallen, dass auf Folie 31 zu den Nachteile von Q-Learning aufgeführt wird, dass es On-Policy Updates durchführt. Auf Folie 35 wird dann allerdings geschrieben, dass Q-Learning Off-Policy Updates durchführt.

8_2reinforcement-learning_pdf__Seite_31_von_45_.png
8_2reinforcement-learning_pdf__Seite_31_von_45_.png (109.31 KiB) 487 mal betrachtet
8_2reinforcement-learning_pdf__Seite_35_von_45_.png
8_2reinforcement-learning_pdf__Seite_35_von_45_.png (35.54 KiB) 487 mal betrachtet
Nach meinen Recherchen ist Q-Learning Off-Policy, mich verwirrt nur die Folie 31 etwas.

Unten auf Folie 31 wird SARSA erwähnt und die Gleichung scheint auch SARSA zu sein.
Ich würde das so verstehen, dass das Ausführen von On-Policy Updates ein Nachteil von SARSA ist, und nicht von Q-Learning, wie es durch die Überschrift vermuten lässt?

Viele Grüße
Lorenz

Re: Q-Learning: On-Policy oder Off-Policy?

Verfasst: 19. Jul 2018 12:08
von Tobias Joppen
Der Folie 31 fehlt wohl "Idea: "
Denn: Der Nachteil ist das berechnen von argmax. Um das zu umgehen kann man SARSA verwenden. Der zweite Aufzählungspunkt ist daher kein weiterer Nachteil von Q-Learning, sondern ein Ansatz es zu verbessern.

Liebe Grüße,
Tobias