Reinforcement Learning Code with PyTorch

Papers

Algorithms

01. Model-Free Reinforcement Learning

Asynchronous Advantage Actor-Critic (A3C)

CartPole(Classic control)

Deep Deterministic Policy Gradient (DDPG)

Pendulum(Classic control)

Truncated Natural Policy Gradient (TNPG)

Trust Region Policy Optimization (TRPO)

Pendulum(Classic control)

TRPO + Generalized Advantage Estimator (GAE)

Proximal Policy Optimization (PPO)

Pendulum(Classic control)

PPO + Generalized Advantage Estimator (GAE)

Soft Actor-Critic (SAC)

Pendulum(Classic control)
Hopper(MoJoCo)

02. Inverse Reinforcement Learning

Apprenticeship Learning via Inverse Reinforcement Learning (APP)

MountainCar(Classic control)

Maximum Entropy Inverse Reinforcement Learning (MaxEnt)

MountainCar(Classic control)

Generative Adversarial Imitation Learning (GAIL)

Hopper(MoJoCo)

Variational Adversarial Imitation Learning (VAIL)

Hopper(MoJoCo)

Reinforcement-Learning-Code
Reinforcement-Learning-Code copied to clipboard

Metadata

Reinforcement Learning Code with PyTorch

Papers

Algorithms

01. Model-Free Reinforcement Learning

Deep Q-Network (DQN)

Double DQN (DDQN)

Advantage Actor-Critic (A2C)

Asynchronous Advantage Actor-Critic (A3C)

Deep Deterministic Policy Gradient (DDPG)

Truncated Natural Policy Gradient (TNPG)

Trust Region Policy Optimization (TRPO)

TRPO + Generalized Advantage Estimator (GAE)

Proximal Policy Optimization (PPO)

PPO + Generalized Advantage Estimator (GAE)

Soft Actor-Critic (SAC)

02. Inverse Reinforcement Learning

Apprenticeship Learning via Inverse Reinforcement Learning (APP)

Maximum Entropy Inverse Reinforcement Learning (MaxEnt)

Generative Adversarial Imitation Learning (GAIL)

Variational Adversarial Imitation Learning (VAIL)

Learning curve

CartPole

Pendulum

Hopper

Reference

← Metadata

Owner

Metadata

Reinforcement-Learning-Code Reinforcement-Learning-Code copied to clipboard

Metadata

Reinforcement Learning Code with PyTorch

Papers

Algorithms

01. Model-Free Reinforcement Learning

Deep Q-Network (DQN)

Double DQN (DDQN)

Advantage Actor-Critic (A2C)

Asynchronous Advantage Actor-Critic (A3C)

Deep Deterministic Policy Gradient (DDPG)

Truncated Natural Policy Gradient (TNPG)

Trust Region Policy Optimization (TRPO)

TRPO + Generalized Advantage Estimator (GAE)

Proximal Policy Optimization (PPO)

PPO + Generalized Advantage Estimator (GAE)

Soft Actor-Critic (SAC)

02. Inverse Reinforcement Learning

Apprenticeship Learning via Inverse Reinforcement Learning (APP)

Maximum Entropy Inverse Reinforcement Learning (MaxEnt)

Generative Adversarial Imitation Learning (GAIL)

Variational Adversarial Imitation Learning (VAIL)

Learning curve

CartPole

Pendulum

Hopper

Reference

← Metadata

Owner

Metadata

Reinforcement-Learning-Code
Reinforcement-Learning-Code copied to clipboard