minimind icon indicating copy to clipboard operation
minimind copied to clipboard

🚀🚀 「大模型」2小时完全从0训练26M的小参数GPT!🌏 Train a 26M-parameter GPT from scratch in just 2h!

Results 74 minimind issues
Sort by recently updated
recently updated
newest added

如果只想模型固定生成1个token需要怎么设置?max_seq_len感觉不起作用,得到的结果不可解释 运行命令:python eval_model.py --load 1 --max_seq_len 1 运行结果: MiniMind模型参数量: 108.95M(illion) [0] 自动测试 [1] 手动输入 1 👶: 你好你是谁? 🤖️ÿ:

作者在训练中使用了梯度累积,但是学习率却在trainer_loder的的每个step都有下降,理应在每次梯度下降是更新学习率,而不是每次step。 同样的问题出现在模型保存和日志打印中,interval应该为梯度下降次数为单位,而不是step

我的配置: CPU: Intel(R) Xeon(R) CPU E5-2696 v3 * 2 GPU: NVIDIA GeForce RTX 4060 Ti 16GB * 1 RAM: DDR3 128GB sentence-transformers 2.3.1 torch 2.6.0+cu126 torchaudio 2.6.0+cu126 torchvision 0.21.0+cu126 transformers...

error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/