Q-Learning: On-Policy oder Off-Policy?

Moderator: Einführung in die Künstliche Intelligenz

Lorenz123
Erstie
Erstie
Beiträge: 14
Registriert: 12. Apr 2018 15:21

Q-Learning: On-Policy oder Off-Policy?

Beitrag von Lorenz123 » 19. Jul 2018 09:52

Hallo,

im Foliensatz zu Reinforcement Learning ist mir aufgefallen, dass auf Folie 31 zu den Nachteile von Q-Learning aufgeführt wird, dass es On-Policy Updates durchführt. Auf Folie 35 wird dann allerdings geschrieben, dass Q-Learning Off-Policy Updates durchführt.

8_2reinforcement-learning_pdf__Seite_31_von_45_.png
8_2reinforcement-learning_pdf__Seite_31_von_45_.png (109.31 KiB) 388 mal betrachtet
8_2reinforcement-learning_pdf__Seite_35_von_45_.png
8_2reinforcement-learning_pdf__Seite_35_von_45_.png (35.54 KiB) 388 mal betrachtet
Nach meinen Recherchen ist Q-Learning Off-Policy, mich verwirrt nur die Folie 31 etwas.

Unten auf Folie 31 wird SARSA erwähnt und die Gleichung scheint auch SARSA zu sein.
Ich würde das so verstehen, dass das Ausführen von On-Policy Updates ein Nachteil von SARSA ist, und nicht von Q-Learning, wie es durch die Überschrift vermuten lässt?

Viele Grüße
Lorenz

Tobias Joppen
Mausschubser
Mausschubser
Beiträge: 44
Registriert: 20. Feb 2017 15:08

Re: Q-Learning: On-Policy oder Off-Policy?

Beitrag von Tobias Joppen » 19. Jul 2018 12:08

Der Folie 31 fehlt wohl "Idea: "
Denn: Der Nachteil ist das berechnen von argmax. Um das zu umgehen kann man SARSA verwenden. Der zweite Aufzählungspunkt ist daher kein weiterer Nachteil von Q-Learning, sondern ein Ansatz es zu verbessern.

Liebe Grüße,
Tobias

Antworten

Zurück zu „Einführung in die Künstliche Intelligenz“