distributed-training topics

HandyRL

282

Stars

41

Forks

Watchers

HandyRL is a handy and simple framework based on Python and PyTorch for distributed reinforcement learning that is applicable to your own environments.

DeNA

deep-learning

distributed-training

games

machine-learning

pytorch-sync-batchnorm-example

247

Stars

24

Forks

Watchers

How to use Cross Replica / Synchronized Batchnorm in Pytorch

dougsouza

batchnorm

dataparallel

distributed-training

pytorch

libai

377

Stars

55

Forks

Watchers

LiBai(李白): A Toolbox for Large-Scale Distributed Parallel Training

Oneflow-Inc

data-parallelism

deep-learning

distributed-training

large-scale

deep-gradient-compression

206

Stars

43

Forks

Watchers

[ICLR 2018] Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training

synxlin

deep-gradient-compression

deep-learning

distributed-training

gradient-compression

EasyParallelLibrary

252

Stars

49

Forks

Watchers

Easy Parallel Library (EPL) is a general and efficient deep learning framework for distributed model training.

alibaba

data-parallelism

deep-learning

distributed-training

gpu

OpenKS

155

Stars

67

Forks

Watchers

OpenKS - 领域可泛化的知识学习与计算引擎

ZJU-OpenKS

distributed-training

kgqa

knowledge-computing

skypilot

7.8k

Stars

624

Forks

Watchers

SkyPilot: Run AI and batch jobs on any infra (Kubernetes or 16+ clouds). Get unified execution, cost savings, and high GPU availability via a simple interface.

skypilot-org

cloud-computing

cloud-management

data-science

deep-learning

dynamic-training-with-apache-mxnet-on-aws

56

Stars

17

Forks

Watchers

Dynamic training with Apache MXNet reduces cost and time for training deep neural networks by leveraging AWS cloud elasticity and scale. The system reduces training cost and time by dynamically updati...

awslabs

aws

deep-learning

distributed-training

machine-learning