jingyaogong
jingyaogong
## Your project has been a real blessing to me, very free and well set up, very comfortable to use, hats off to you! But I have this problem in...
在某平台上租了2台机器,控制内存CPU等变量的一致性,测试不同GPU的训练时间   个人认为 `[3060~2080Ti~3090~4090]` 这个区间包含了大部分AI从业者手头的显卡规格,具有很强的代表性 其它桌面GPU,例如3060的算力略弱于2080Ti,可以参考上图换算 --- * 2080Ti单卡(11G显存) > pretrain `batchsize=48`,预计7小时1个epoch ``` root@autodl-container-908d479a1c-1697cfd8:~/autodl-tmp/minimind# python 1-pretrain.py LLM总参数量:26.878 百万 Epoch:[0/20](0/111769) loss:8.879 lr:0.0002000 epoch_Time:2618.0min: Epoch:[0/20](100/111769) loss:7.438 lr:0.0002000 epoch_Time:442.0min: Epoch:[0/20](200/111769) loss:6.899 lr:0.0002000...

【250426更新】特性
🔥支持llama.cpp、vllm、ollama等热门三方生态。 * 如有兼容性需要,可访问[🔗旧仓库内容🔗](https://github.com/jingyaogong/minimind/tree/7da201a944a90ed49daef8a0265c959288dff83a)。 * MiniMind模型参数完全改名,对齐Transformers库模型(统一命名)。 * generate方式重构,继承自GenerationMixin类。 * 规范代码和目录结构。 * 词表`` `` $\rightarrow$ `` `` > GRPO和PPO从0实现将在几天内同步更新
【推荐内容】合集
* MiniMind的源码解读,包含tokenizer、RoPE、MoE、KV Cache、pretraining、SFT、LoRA、DPO等完整流程 https://github.com/hans0809/MiniMind-in-Depth * 🚀 让我们来从头训练一个属于自己的Mini-RWKV-7吧~ 小小的鹅也能飞得很高喔~ https://github.com/Alic-Li/Mini_RWKV_7 * 【DataWhale】📚 大语言模型原理与实践教程 https://github.com/datawhalechina/happy-llm * 【DataWhale】📚 智能体原理与实践教程 https://github.com/datawhalechina/hello-agents * MiniMind文档 https://minimind.readthedocs.io https://jingyaogong.github.io/minimind 一些推荐内容,欢迎追加~