minimind issues

Eval Ⅲ Objective Benchmark 部分报错，请问可以提供一个示范性的配置文件吗？

lm_eval --model hf --model_args pretrained='./out/',device=cuda,dtype=auto --tasks ceval* --batch_size 8 --trust_remote_code 2025-02-21:18:13:52,363 INFO [lm_eval.tasks:460] The tag 'kobest' is already registered as a group, this tag will not be registered. This may...

yi-lu-o

Add the interface testing interface for model API deployment.

jingsongliujing

add smart gradient accumulation

对于pretrain 和 SFT，通常使用大一点的梯度累计，所以只在最后一次累计同步梯度能够减少通信开销，加速训练。

powermano

SFT数据集预处理方法

1

非常感谢您之前关于预训练数据集预处理的分享，想请问一下是否也可以分享一下SFT阶段的数据预处理脚本，希望能够基于匠数SFT数据集复现出sft_512.jsonl，非常感谢！

SimingYan

SFT训练中断，sft_512.jsonl 文件是不是存在问题

6

每次使用sft_512.jsonl 进行训练的时候，训练到一个固定阶段，会直接断了， sft_1024.jsonl， sft_2048.jsonl 都是正常的 ``` Epoch:[1/1](9300/70838) loss:1.703 lr:0.000052903582 0.244s/iters epoch_Time:251.0min: [2025-02-21 16:44:34,662] torch.distributed.elastic.multiprocessing.api: [WARNING] Sending process 52827 closing signal SIGTERM [2025-02-21 16:44:34,663] torch.distributed.elastic.multiprocessing.api: [WARNING] Sending process 52828 closing...

powermano

配置环境时出现问题

1

Building wheels for collected packages: matplotlib Building wheel for matplotlib (pyproject.toml) ... error error: subprocess-exited-with-error × Building wheel for matplotlib (pyproject.toml) did not run successfully. │ exit code: 1 ╰─>...

jiajy0427

請問如何從checkpoint出發？

尊贵的 minimind 团队您好：由于使用 Colab 训练的缘故，在运行时限结束后就只能终止训练请问需修改何处才能让 `train_pretrain.py` 从结束的 .pth 档案继续开始谢谢！

Chaoray

大模型应用及论文创新点

![Image](https://github.com/user-attachments/assets/47b05104-070e-486e-88f9-b16cae296e77) 欢迎大家共同讨论大模型方向的论文写作问题，多多交流沟通IDEA

rjc7011855

[feat] add interactive notebook

1

## Description 这个 PR 添加了项目部分代码的 Notebook 分解示例： - tokenizer、model (dense)、dataset 的模块化分解 - pretrain、sft、dpo 的训练流程分解

Nijikadesu

[FEATURE] 以交互笔记本方式分解项目代码，进一步降低学习门槛

3

尊敬的 MiniMind 项目作者, 您好！首先感谢您开源了这样一个宝藏项目，MiniMind 项目大大降低了大语言模型的实践门槛，项目清晰的代码结构也为源码层面的学习提供了不少帮助！我在学习 MiniMind 项目的过程中意识到，由于大模型训练的多阶段性，包括我在内的初学者往往会倾向于体验大模型在每个阶段的训练过程（比如简单地在命令行启动脚本，然后 wandb 观察损失），而对准备工作与训练细节疏于考虑。同时，对于想学习项目代码的初学者来说，直接阅读源码难度较高，调试项目代码则可能面对数据量大、文件多码量大、逻辑复杂等问题，而且在 GPU 服务器上调试代码意味着付出的时间成本会转化为实际支出，显得不太友好。我认为，在项目中添加 Juypter Notebook 运行示例，对项目代码进行分解，更有利于初学者在源码层面展开学习，根据这一想法，我已经完成了部分项目代码的分解，以下是一些具体信息。 ## 目的通过 Jupyter Notebook 交互式笔记本与尽可能简单的数据集 demo，将训练一个大模型的全流程分解为多个 Notebook，涵盖 tokenizer、model、dataset 等模块的构建与 pretrain、sft、dpo 等训练阶段的过程展示。通过提供的笔记本，学习者可以深入代码层面展开学习，获取接近上手调试的学习体验；同时，降低...

Nijikadesu

documentation

minimind
minimind copied to clipboard

Metadata

Eval Ⅲ Objective Benchmark 部分报错，请问可以提供一个示范性的配置文件吗？

Add the interface testing interface for model API deployment.

add smart gradient accumulation

SFT数据集预处理方法

SFT训练中断，sft_512.jsonl 文件是不是存在问题

配置环境时出现问题

請問如何從checkpoint出發？

大模型应用及论文创新点

[feat] add interactive notebook

[FEATURE] 以交互笔记本方式分解项目代码，进一步降低学习门槛

← Metadata

Owner

Metadata

minimind minimind copied to clipboard

Metadata

← Metadata

Owner

Metadata

minimind
minimind copied to clipboard