PaLM-colossalai issues

Fails with cannot import colo_set_process_memory_fraction in Docker

On a Multi GPU A100 system: $ cat CONFIG_FILE.py from colossalai.amp import AMP_TYPE SEQ_LENGTH = 512 BATCH_SIZE = 8 NUM_EPOCHS = 10 WARMUP_EPOCHS = 1 parallel = dict( tensor=dict(mode="1d", size=4),...

Adrian-1234

badcase

feifeibear

Gemin+2.5D badcase

Using MR #41 The launching script is as follows. ``` env OMP_NUM_THREADS=12 torchrun --standalone --nproc_per_node=4 train.py --from_torch --config=configs/palm_8b_zero_2p5d_badcase.py ``` It failed after a few iterations. I prefer to attribute the...

feifeibear

[feature] add model checkpointing

feifeibear

[feature] Add performance and scalability results

feifeibear

torch.distributed.elastic.multipro cessing.errors.ChildFailedError

![paml错误截图1](https://user-images.githubusercontent.com/81227322/233546210-b182b1f6-43ec-45e4-80b2-6bfd32d60a36.png) ![palm错误截图2](https://user-images.githubusercontent.com/81227322/233546221-cf7f4c7b-7a49-4ec0-ab8a-baa51f92aa43.png) Above is the program operation log，its says torch.distributed.elastic.multipro cessing.errors.ChildFailedError. Can anybody know why it happen.Thanks!

cainiaogoroad

PaLM-colossalai
PaLM-colossalai copied to clipboard

Metadata

Fails with cannot import colo_set_process_memory_fraction in Docker

badcase

Gemin+2.5D badcase

[feature] add model checkpointing

[feature] Add performance and scalability results

torch.distributed.elastic.multipro cessing.errors.ChildFailedError

ModuleNotFoundError: No module named 'torch._six'

Can I run this on one rtx 4070 ti?

update palm by combining gemini

← Metadata

Owner

Metadata

PaLM-colossalai PaLM-colossalai copied to clipboard

Metadata

← Metadata

Owner

Metadata

PaLM-colossalai
PaLM-colossalai copied to clipboard