minimind
minimind copied to clipboard
🚀🚀 「大模型」2小时完全从0训练26M的小参数GPT!🌏 Train a 26M-parameter GPT from scratch in just 2h!
训练结果评估
大佬们,咨询下我是自己训练的,这样的评估效果正常吗? ```text 模型参数: 26.878464 百万 = 0.026878464 B (Billion) 问题: 椭圆和圆的区别 回答: 椭圆和圆的区别 椭圆的区别主要是椭圆的形状,而椭圆的区别主要是在椭圆中部的位置上。椭圆的区别主要是椭圆的大小,椭圆的位置比较大,椭圆的位置比较大,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较大,椭圆的位置比较小,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较长。 椭圆的区别 椭圆的区别主要是椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较低,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高。 椭圆的区别 椭圆的区别主要是椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高。 以上是椭圆的区别,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高,椭圆的位置比较高。 5.84230637550354 s 问题: 中国关于马克思主义基本原理 回答:的讲座,既有马克思主义哲学原理的阐述,也有马克思主义哲学的实践,既有马克思主义中国化时代背景,也有马克思主义中国化时代背景。从马克思主义基本理论到马克思主义中国化时代背景,从马克思主义中国化时代背景、马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中汲取精神营养,从马克思主义中国化时代背景,从马克思主义中国化的主题出发,从中西文化的关系、马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化的主题出发,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化的主题出发,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时代背景,从马克思主义中国化时 5.8052077293396 s 问题: 人类大脑的主要功能是 回答:调节大脑的功能,使大脑的功能得到充分发挥,从而使大脑更加健康。 一、大脑中的大脑...
要不集成一下试试? https://github.com/MoonshotAI/Moonlight
首先感谢您优秀的工作! 我在一台windows11上尝试训练,配置为32g + 2080s; cuda版本: > | NVIDIA-SMI 572.47 Driver Version: 572.47 CUDA Version: 12.8 | nvcc版本: > Cuda compilation tools, release 12.8, V12.8.61 cudnn版本: > v9.7 使用anaconda维护虚拟环境;之前有尝试过几个数值回归的神经网络demo,安装的torch version=2.5.1;是可以调用gpu的; 在尝试本工程时,使用了requ文件,可以正常启动模型及对话,目前也可以进行预训练,但是无法调用gpu;想了解下如何解决?...
Hello, you guy made a great work here, But Can I ask How to convert the Minimind-Small to Onnx?
如题
感谢作者这么好的项目,请问大模型的幻觉/不安全答复的问题是否有做针对性优化? 我看文章中似乎没有提及这块内容,感谢答复
请问完整复现MiniMindV2的训练参数,主要是每个阶段的epoch不清楚。另外请问sft512和sft2048两个sft是分两次训练吗?怎么在512的基础上继续训练2048。可能问题比较新手,非常感谢大佬指导下。
minimind模型的网络运行架构图绘制,可供参考!!! 
```python output = F.scaled_dot_product_attention( xq, xk, xv, attn_mask=None, dropout_p=dropout_p, is_causal=True ) ``` 我还不是特别了解。但是看到一些其他的attention实现比如deepseek-v3,发现都有传入三角矩阵,项目源代码里面的attention实现,如果走贴在这里的内置函数,是不是就缺少了mask。这个对于llm单向注意力应该还是比较关键的吧 PS:当前做预训练还是看出来有效果的,只是想吧ds的MLA注意力引入进来看下效果,所以有些疑问。