Vadim Dabravolski comments

Results 7 comments of


                                            Vadim Dabravolski

Support different tf.distribute.Strategies for distributed training on SageMaker

Sharing an implementation of working TF Config for MultiNodeMirroredStrategy below. This has been tested on SageMaker Deep Learning container with TensorFlow v2.8 (link to [dockerfile](https://github.com/aws/deep-learning-containers/blob/master/tensorflow/training/docker/2.8/py3/cu112/Dockerfile.gpu)). ```python def _build_tf_config(): hosts =...

Add deployment using torchscript models

See reported D2 issue: https://github.com/facebookresearch/detectron2/issues/1566

Huggingface <-> Megatron-LM Compatibility

Was interested in the same questions, @usuyama. See excerpt from Megatron paper. Does look like MegatronHF will require some updates on HF side. ![image](https://user-images.githubusercontent.com/505262/99604907-93898180-29d4-11eb-829e-a06870b841e0.png)

Vadim Dabravolski

Support different tf.distribute.Strategies for distributed training on SageMaker

Add deployment using torchscript models

Huggingface <-> Megatron-LM Compatibility

exceptions.AttributeError: 'NewsSpider' object has no attribute '_rules'

exceptions.AttributeError: 'NewsSpider' object has no attribute '_rules'

[speculator training] Speculator training

Cluster issue