LLM-Tuning icon indicating copy to clipboard operation
LLM-Tuning copied to clipboard

RuntimeError: Expected is_sm80 to be true, but got false.

Open Qiang-HU opened this issue 1 year ago โ€ข 4 comments

โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /Project/lq_ChatGLM2-6B/LLM-Tuning/chatglm2_lora_tuning.py:172 in โ”‚ โ”‚ โ”‚ โ”‚ 169 โ”‚ โ”‚ 170 โ”‚ โ”‚ 171 if name == "main": โ”‚ โ”‚ โฑ 172 โ”‚ main() โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ /Project/lq_ChatGLM2-6B/LLM-Tuning/chatglm2_lora_tuning.py:165 in main โ”‚ โ”‚ โ”‚ โ”‚ 162 โ”‚ โ”‚ callbacks=[TensorBoardCallback(writer)], โ”‚ โ”‚ 163 โ”‚ โ”‚ data_collator=data_collator โ”‚ โ”‚ 164 โ”‚ ) โ”‚ โ”‚ โฑ 165 โ”‚ trainer.train() โ”‚ โ”‚ 166 โ”‚ writer.close() โ”‚ โ”‚ 167 โ”‚ # save model โ”‚ โ”‚ 168 โ”‚ model.save_pretrained(training_args.output_dir) โ”‚ โ”‚ โ”‚ โ”‚ /usr/local/python3.8/lib/python3.8/site-packages/transformers/trainer.py:1662 in โ”‚ โ”‚ train โ”‚ โ”‚ โ”‚ โ”‚ 1659 โ”‚ โ”‚ inner_training_loop = find_executable_batch_size( โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ self._inner_training_loop, self._train_batch_size, args.auto_find โ”‚ โ”‚ 1661 โ”‚ โ”‚ ) โ”‚ โ”‚ โฑ 1662 โ”‚ โ”‚ return inner_training_loop( โ”‚ โ”‚ 1663 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1664 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โ”‚ โ”‚ /usr/local/python3.8/lib/python3.8/site-packages/transformers/trainer.py:1929 in โ”‚ โ”‚ _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1926 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ with model.no_sync(): โ”‚ โ”‚ 1927 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ tr_loss_step = self.training_step(model, inputs) โ”‚ โ”‚ 1928 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 1929 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ tr_loss_step = self.training_step(model, inputs) โ”‚ โ”‚ 1930 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1931 โ”‚ โ”‚ โ”‚ โ”‚ if ( โ”‚ โ”‚ 1932 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ args.logging_nan_inf_filter โ”‚ โ”‚ โ”‚ โ”‚ /usr/local/python3.8/lib/python3.8/site-packages/transformers/trainer.py:2709 in โ”‚ โ”‚ training_step โ”‚ โ”‚ โ”‚ โ”‚ 2706 โ”‚ โ”‚ โ”‚ loss = loss / self.args.gradient_accumulation_steps โ”‚ โ”‚ 2707 โ”‚ โ”‚ โ”‚ โ”‚ 2708 โ”‚ โ”‚ if self.do_grad_scaling: โ”‚ โ”‚ โฑ 2709 โ”‚ โ”‚ โ”‚ self.scaler.scale(loss).backward() โ”‚ โ”‚ 2710 โ”‚ โ”‚ elif self.use_apex: โ”‚ โ”‚ 2711 โ”‚ โ”‚ โ”‚ with amp.scale_loss(loss, self.optimizer) as scaled_loss: โ”‚ โ”‚ 2712 โ”‚ โ”‚ โ”‚ โ”‚ scaled_loss.backward() โ”‚ โ”‚ โ”‚ โ”‚ /usr/local/python3.8/lib/python3.8/site-packages/torch/_tensor.py:487 in backward โ”‚ โ”‚ โ”‚ โ”‚ 484 โ”‚ โ”‚ โ”‚ โ”‚ create_graph=create_graph, โ”‚ โ”‚ 485 โ”‚ โ”‚ โ”‚ โ”‚ inputs=inputs, โ”‚ โ”‚ 486 โ”‚ โ”‚ โ”‚ ) โ”‚ โ”‚ โฑ 487 โ”‚ โ”‚ torch.autograd.backward( โ”‚ โ”‚ 488 โ”‚ โ”‚ โ”‚ self, gradient, retain_graph, create_graph, inputs=inputs โ”‚ โ”‚ 489 โ”‚ โ”‚ ) โ”‚ โ”‚ 490 โ”‚ โ”‚ โ”‚ โ”‚ /usr/local/python3.8/lib/python3.8/site-packages/torch/autograd/init.py:200 in โ”‚ โ”‚ backward โ”‚ โ”‚ โ”‚ โ”‚ 197 โ”‚ # The reason we repeat same the comment below is that โ”‚ โ”‚ 198 โ”‚ # some Python versions print out the first line of a multi-line function โ”‚ โ”‚ 199 โ”‚ # calls in the traceback and some print out the last line โ”‚ โ”‚ โฑ 200 โ”‚ Variable.execution_engine.run_backward( # Calls into the C++ engine to r โ”‚ โ”‚ 201 โ”‚ โ”‚ tensors, grad_tensors, retain_graph, create_graph, inputs, โ”‚ โ”‚ 202 โ”‚ โ”‚ allow_unreachable=True, accumulate_grad=True) # Calls into the C++ en โ”‚ โ”‚ 203 โ”‚ โ”‚ โ”‚ โ”‚ /usr/local/python3.8/lib/python3.8/site-packages/torch/autograd/function.py:274 in โ”‚ โ”‚ apply โ”‚ โ”‚ โ”‚ โ”‚ 271 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Function is not allowed. You should only imple โ”‚ โ”‚ 272 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "of them.") โ”‚ โ”‚ 273 โ”‚ โ”‚ user_fn = vjp_fn if vjp_fn is not Function.vjp else backward_fn โ”‚ โ”‚ โฑ 274 โ”‚ โ”‚ return user_fn(self, *args) โ”‚ โ”‚ 275 โ”‚ โ”‚ โ”‚ 276 โ”‚ def apply_jvp(self, *args): โ”‚ โ”‚ 277 โ”‚ โ”‚ # _forward_cls is defined by derived class โ”‚ โ”‚ โ”‚ โ”‚ /usr/local/python3.8/lib/python3.8/site-packages/torch/utils/checkpoint.py:157 in โ”‚ โ”‚ backward โ”‚ โ”‚ โ”‚ โ”‚ 154 โ”‚ โ”‚ โ”‚ raise RuntimeError( โ”‚ โ”‚ 155 โ”‚ โ”‚ โ”‚ โ”‚ "none of output has requires_grad=True," โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ " this checkpoint() is not necessary") โ”‚ โ”‚ โฑ 157 โ”‚ โ”‚ torch.autograd.backward(outputs_with_grad, args_with_grad) โ”‚ โ”‚ 158 โ”‚ โ”‚ grads = tuple(inp.grad if isinstance(inp, torch.Tensor) else None โ”‚ โ”‚ 159 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ for inp in detached_inputs) โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /usr/local/python3.8/lib/python3.8/site-packages/torch/autograd/init.py:200 in โ”‚ โ”‚ backward โ”‚ โ”‚ โ”‚ โ”‚ 197 โ”‚ # The reason we repeat same the comment below is that โ”‚ โ”‚ 198 โ”‚ # some Python versions print out the first line of a multi-line function โ”‚ โ”‚ 199 โ”‚ # calls in the traceback and some print out the last line โ”‚ โ”‚ โฑ 200 โ”‚ Variable.execution_engine.run_backward( # Calls into the C++ engine to r โ”‚ โ”‚ 201 โ”‚ โ”‚ tensors, grad_tensors, retain_graph, create_graph, inputs, โ”‚ โ”‚ 202 โ”‚ โ”‚ allow_unreachable=True, accumulate_grad=True) # Calls into the C++ en โ”‚ โ”‚ 203 โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ RuntimeError: Expected is_sm80 to be true, but got false. (Could this error message be improved? If so, please report an enhancement request to PyTorch.)

่ฟ™ไธชๆŠฅ้”™ๆ˜ฏไธบไป€ไนˆ๏ผŸ

Qiang-HU avatar Jul 18 '23 03:07 Qiang-HU

pytorch็‰ˆๆœฌ๏ผŸ

beyondguo avatar Jul 18 '23 05:07 beyondguo

ๅฏน๏ผŒๅ…ˆ็”จ็š„torch2.0็‰ˆๆœฌ็š„๏ผŒๅŽ้ข้™ๅˆฐ1.13.1็‰ˆๆœฌๅฐฑ่กŒไบ†

Qiang-HU avatar Jul 18 '23 09:07 Qiang-HU

ๅฅ‡ๆ€ช๏ผŒไฝ†ๆˆ‘ไฝฟ็”จ็š„torch2.0

beyondguo avatar Jul 21 '23 01:07 beyondguo

้‡ๅˆฐไบ†

natureLanguageQing avatar Jul 31 '23 08:07 natureLanguageQing