minimind
minimind copied to clipboard
🚀🚀 「大模型」2小时完全从0训练26M的小参数GPT!🌏 Train a 26M-parameter GPT from scratch in just 2h!
lm_eval --model hf --model_args pretrained='./out/',device=cuda,dtype=auto --tasks ceval* --batch_size 8 --trust_remote_code 2025-02-21:18:13:52,363 INFO [lm_eval.tasks:460] The tag 'kobest' is already registered as a group, this tag will not be registered. This may...
对于pretrain 和 SFT, 通常使用大一点的梯度累计,所以只在最后一次累计同步梯度能够减少通信开销,加速训练。
非常感谢您之前关于预训练数据集预处理的分享,想请问一下是否也可以分享一下SFT阶段的数据预处理脚本,希望能够基于匠数SFT数据集复现出sft_512.jsonl,非常感谢!
每次使用sft_512.jsonl 进行训练的时候, 训练到一个固定阶段,会直接断了, sft_1024.jsonl, sft_2048.jsonl 都是正常的 ``` Epoch:[1/1](9300/70838) loss:1.703 lr:0.000052903582 0.244s/iters epoch_Time:251.0min: [2025-02-21 16:44:34,662] torch.distributed.elastic.multiprocessing.api: [WARNING] Sending process 52827 closing signal SIGTERM [2025-02-21 16:44:34,663] torch.distributed.elastic.multiprocessing.api: [WARNING] Sending process 52828 closing...
Building wheels for collected packages: matplotlib Building wheel for matplotlib (pyproject.toml) ... error error: subprocess-exited-with-error × Building wheel for matplotlib (pyproject.toml) did not run successfully. │ exit code: 1 ╰─>...
尊贵的 minimind 团队您好: 由于使用 Colab 训练的缘故,在运行时限结束后就只能终止训练 请问需修改何处才能让 `train_pretrain.py` 从结束的 .pth 档案继续开始 谢谢!
 欢迎大家共同讨论大模型方向的论文写作问题,多多交流沟通IDEA
## Description 这个 PR 添加了项目部分代码的 Notebook 分解示例: - tokenizer、model (dense)、dataset 的模块化分解 - pretrain、sft、dpo 的训练流程分解
尊敬的 MiniMind 项目作者, 您好! 首先感谢您开源了这样一个宝藏项目,MiniMind 项目大大降低了大语言模型的实践门槛,项目清晰的代码结构也为源码层面的学习提供了不少帮助! 我在学习 MiniMind 项目的过程中意识到,由于大模型训练的多阶段性,包括我在内的初学者往往会倾向于体验大模型在每个阶段的训练过程(比如简单地在命令行启动脚本,然后 wandb 观察损失),而对准备工作与训练细节疏于考虑。同时,对于想学习项目代码的初学者来说,直接阅读源码难度较高,调试项目代码则可能面对数据量大、文件多码量大、逻辑复杂等问题,而且在 GPU 服务器上调试代码意味着付出的时间成本会转化为实际支出,显得不太友好。 我认为,在项目中添加 Juypter Notebook 运行示例,对项目代码进行分解,更有利于初学者在源码层面展开学习,根据这一想法,我已经完成了部分项目代码的分解,以下是一些具体信息。 ## 目的 通过 Jupyter Notebook 交互式笔记本与尽可能简单的数据集 demo,将训练一个大模型的全流程分解为多个 Notebook,涵盖 tokenizer、model、dataset 等模块的构建与 pretrain、sft、dpo 等训练阶段的过程展示。 通过提供的笔记本,学习者可以深入代码层面展开学习,获取接近上手调试的学习体验;同时,降低...