Gradient-based off-policy learning agents#

The following example showcases how to use gradient-based Reinforcement Learning techniques (in particular, Q-learning) to train a Model Predictive Controller (MPC) scheme for a simple task in an off-policy way.