off-policy topics

hindsight-experience-replay

377

Stars

76

Forks

Watchers

This is the pytorch implementation of Hindsight Experience Replay (HER) - Experiment on all fetch robotic environments.

TianhongDai

ddpg

exploration

her

hindsight-experience-replay

drq

398

Stars

49

Forks

Watchers

DrQ: Data regularized Q

denisyarats

actor-critic

control

data-augmentation

deep-learning

exorl

98

Stars

8

Forks

Watchers

ExORL: Exploratory Data for Offline Reinforcement Learning

denisyarats

control

datasets

deep-learning

exporation

curl

559

Stars

88

Forks

Watchers

CURL: Contrastive Unsupervised Representation Learning for Sample-Efficient Reinforcement Learning

MishaLaskin

contrastive-learning

contrastive-loss

contrastive-predictive-coding

curl

linorobot

399

Stars

71

Forks

Watchers

Autonomous ground robots (2WD, 4WD, Ackermann Steering, Mecanum Drive)

linorobot

codebase

2wd

data-

rad

399

Stars

71

Forks

Watchers

RAD: Reinforcement Learning with Augmented Data

MishaLaskin

codebase

2wd

data-

sunrise

117

Stars

28

Forks

Watchers

SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning

pokaxpoka

codebase

deep-learning

deep-neural-networks

deep-q-learning

off-policy-continuous-control

73

Stars

10

Forks

Watchers

Official PyTorch code for "Recurrent Off-policy Baselines for Memory-based Continuous Control" (DeepRL Workshop, NeurIPS 21)

zhihanyang2022

actor-critic

continuous-control

off-policy

pytorch

flashbax

160

Stars

6

Forks

Watchers

⚡ Flashbax: Accelerated Replay Buffers in JAX

instadeepai

buffers

hpc

jax

machine-learning

causal-rl

27

Stars

3

Forks

Watchers

Causal RL: Reverse-Environment Network Integrated Actor-Critic Algorithm

ccnets-team

actor-critic-algorithm

causal

causal-mask

cooperative-network

Reinforcement-Learning-solving-a-simple-4by4-Gridworld-using-Qlearning-in-python

15

Stars

1

Forks

Watchers

solving a simple 4*4 Gridworld almost similar to openAI gym FrozenLake using Qlearning Temporal difference method Reinforcement Learning

MohammadAsadolahi

off-policy

qlearning

qlearning-on-gridworld

reinforcement-learning