╭───────────────────── Traceback (most recent call last) ──────────────────────╮
│ /home/dev/project/chatglm2_finetuning/train.py:118 in │
│ │
│ 115 │ ) │
│ 116 │ │
│ 117 │ if train_datasets is not None: │
│ ❱ 118 │ │ trainer.fit(pl_model, train_dataloaders=train_datasets) │
│ 119 │
│ 120 │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/lightning/pytorch │
│ /trainer/trainer.py:520 in fit │
│ │
│ 517 │ │ """ │
│ 518 │ │ model = _maybe_unwrap_optimized(model) │
│ 519 │ │ self.strategy._lightning_module = model │
│ ❱ 520 │ │ call._call_and_handle_interrupt( │
│ 521 │ │ │ self, self._fit_impl, model, train_dataloaders, val_datal │
│ 522 │ │ ) │
│ 523 │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/lightning/pytorch │
│ /trainer/call.py:42 in _call_and_handle_interrupt │
│ │
│ 39 │ """ │
│ 40 │ try: │
│ 41 │ │ if trainer.strategy.launcher is not None: │
│ ❱ 42 │ │ │ return trainer.strategy.launcher.launch(trainer_fn, *args, │
│ 43 │ │ else: │
│ 44 │ │ │ return trainer_fn(*args, **kwargs) │
│ 45 │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/lightning/pytorch │
│ /strategies/launchers/subprocess_script.py:92 in launch │
│ │
│ 89 │ │ """ │
│ 90 │ │ if not self.cluster_environment.creates_processes_externally: │
│ 91 │ │ │ self._call_children_scripts() │
│ ❱ 92 │ │ return function(*args, **kwargs) │
│ 93 │ │
│ 94 │ def kill(self, signum: _SIGNUM) -> None: │
│ 95 │ │ for proc in self.procs: │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/lightning/pytorch │
│ /trainer/trainer.py:559 in _fit_impl │
│ │
│ 556 │ │ │ model_provided=True, │
│ 557 │ │ │ model_connected=self.lightning_module is not None, │
│ 558 │ │ ) │
│ ❱ 559 │ │ self._run(model, ckpt_path=ckpt_path) │
│ 560 │ │ │
│ 561 │ │ assert self.state.stopped │
│ 562 │ │ self.training = False │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/lightning/pytorch │
│ /trainer/trainer.py:911 in _run │
│ │
│ 908 │ │ self._logger_connector.reset_metrics() │
│ 909 │ │ │
│ 910 │ │ # strategy will configure model and move it to the device │
│ ❱ 911 │ │ self.strategy.setup(self) │
│ 912 │ │ │
│ 913 │ │ # hook │
│ 914 │ │ if self.state.fn == TrainerFn.FITTING: │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/lightning/pytorch │
│ /strategies/deepspeed.py:344 in setup │
│ │
│ 341 │ │ self.setup_optimizers(trainer) │
│ 342 │ │ self.setup_precision_plugin() │
│ 343 │ │ _optimizers_to_device(self.optimizers, self.root_device) │
│ ❱ 344 │ │ self.init_deepspeed() │
│ 345 │ │ self.barrier() │
│ 346 │ │
│ 347 │ def _init_deepspeed_distributed(self) -> None: │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/lightning/pytorch │
│ /strategies/deepspeed.py:448 in init_deepspeed │
│ │
│ 445 │ │ model = _LightningModuleWrapperBase(forward_module=self.model) │
│ 446 │ │ │
│ 447 │ │ if self.lightning_module.trainer and self.lightning_module.tra │
│ ❱ 448 │ │ │ self._initialize_deepspeed_train(model) │
│ 449 │ │ else: │
│ 450 │ │ │ self._initialize_deepspeed_inference(model) │
│ 451 │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/lightning/pytorch │
│ /strategies/deepspeed.py:484 in _initialize_deepspeed_train │
│ │
│ 481 │ │ │ if lr_scheduler is not None: │
│ 482 │ │ │ │ scheduler = lr_scheduler.scheduler │
│ 483 │ │ │
│ ❱ 484 │ │ model, deepspeed_optimizer = self._setup_model_and_optimizer(m │
│ 485 │ │ self._set_deepspeed_activation_checkpointing() │
│ 486 │ │ │
│ 487 │ │ # although we set these here, deepspeed manages the specific o │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/lightning/pytorch │
│ /strategies/deepspeed.py:413 in _setup_model_and_optimizer │
│ │
│ 410 │ │ import deepspeed │
│ 411 │ │ │
│ 412 │ │ model_parameters = filter(lambda p: p.requires_grad, model.par │
│ ❱ 413 │ │ deepspeed_engine, deepspeed_optimizer, _, _ = deepspeed.initia │
│ 414 │ │ │ args=argparse.Namespace(device_rank=self.root_device.index │
│ 415 │ │ │ config=self.config, │
│ 416 │ │ │ model=model, │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/deepspeed/_init │
│ _.py:165 in initialize │
│ │
│ 162 │ │ │ │ │ │ │ │ │ │ config=config, │
│ 163 │ │ │ │ │ │ │ │ │ │ config_class=config_class) │
│ 164 │ │ else: │
│ ❱ 165 │ │ │ engine = DeepSpeedEngine(args=args, │
│ 166 │ │ │ │ │ │ │ │ │ model=model, │
│ 167 │ │ │ │ │ │ │ │ │ optimizer=optimizer, │
│ 168 │ │ │ │ │ │ │ │ │ model_parameters=model_parameters │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/deepspeed/runtime │
│ /engine.py:309 in init │
│ │
│ 306 │ │ │ model_parameters = list(model_parameters) │
│ 307 │ │ │
│ 308 │ │ if has_optimizer: │
│ ❱ 309 │ │ │ self._configure_optimizer(optimizer, model_parameters) │
│ 310 │ │ │ self._configure_lr_scheduler(lr_scheduler) │
│ 311 │ │ │ self._report_progress(0) │
│ 312 │ │ elif self.zero_optimization(): │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/deepspeed/runtime │
│ /engine.py:1184 in _configure_optimizer │
│ │
│ 1181 │ │ optimizer_wrapper = self._do_optimizer_sanity_check(basic_opt │
│ 1182 │ │ │
│ 1183 │ │ if optimizer_wrapper == ZERO_OPTIMIZATION: │
│ ❱ 1184 │ │ │ self.optimizer = self._configure_zero_optimizer(basic_opt │
│ 1185 │ │ elif optimizer_wrapper == AMP: │
│ 1186 │ │ │ amp_params = self.amp_params() │
│ 1187 │ │ │ log_dist(f"Initializing AMP with these params: {amp_param │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/deepspeed/runtime │
│ /engine.py:1419 in _configure_zero_optimizer │
│ │
│ 1416 │ │ │ │ if overlap_comm: │
│ 1417 │ │ │ │ │ logger.warning("Pipeline parallelism does not sup │
│ 1418 │ │ │ │ │ overlap_comm = False │
│ ❱ 1419 │ │ │ optimizer = DeepSpeedZeroOptimizer( │
│ 1420 │ │ │ │ optimizer, │
│ 1421 │ │ │ │ self.param_names, │
│ 1422 │ │ │ │ timers=timers, │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/deepspeed/runtime │
│ /zero/stage_1_and_2.py:312 in init │
│ │
│ 309 │ │ │ │
│ 310 │ │ │ # create flat buffer in CPU and move to GPU │
│ 311 │ │ │ self.bit16_groups_flat.append( │
│ ❱ 312 │ │ │ │ self.flatten_dense_tensors_aligned( │
│ 313 │ │ │ │ │ self.round_robin_bit16_groups[i], │
│ 314 │ │ │ │ │ self.nccl_start_alignment_factor * dist.get_world │
│ 315 │ │ │ │ │ │ get_accelerator().current_device_name())) │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/deepspeed/runtime │
│ /zero/stage_1_and_2.py:829 in flatten_dense_tensors_aligned │
│ │
│ 826 │ │
│ 827 │ # create a flat tensor aligned at the alignment boundary │
│ 828 │ def flatten_dense_tensors_aligned(self, tensor_list, alignment): │
│ ❱ 829 │ │ return self.flatten(align_dense_tensors(tensor_list, alignmen │
│ 830 │ │
│ 831 │ ############### Independent Partition Gradient ################## │
│ 832 │ def reduce_independent_p_g_buckets_and_remove_grads(self, param, │
│ │
│ /home/dev/anaconda3/envs/glm2/lib/python3.10/site-packages/torch/_utils.py:4 │
│ 59 in _flatten_dense_tensors │
│ │
│ 456 │ Returns: │
│ 457 │ │ A contiguous 1D buffer containing input tensors. │
│ 458 │ """ │
│ ❱ 459 │ return torch._C._nn.flatten_dense_tensors(tensors) │
│ 460 │
│ 461 │
│ 462 def _flatten_sparse_tensors(tensors): │
╰──────────────────────────────────────────────────────────────────────────────