Policy Optimization: A Second Look

These notes provide a unified treatment of policy optimization methods, connecting perspectives from reinforcement learning, probabilistic inference, and optimization theory.
Starting from the policy gradient theorem, we build up toward proximal policy optimization (PPO) and its extensions, discussing their interpretations through KL regularization, importance weighting, and proximal point methods.

Introduction to Policy Gradient
Proximal Policy Optimization
Proximal Penalties and KL Regularization
Policy Optimization and Inference
Policy Optimization and EM
Policy Gradient Theorem and New Derivations
Are We Using the Correct Divergences?
Understanding PPO Clipping and MOEs

Policy Optimization: a Second Look

Contents

Policy Optimization: A Second Look

Contents