minimind issues

训练结果评估

1

大佬们，咨询下我是自己训练的，这样的评估效果正常吗？ ```text 模型参数: 26.878464 百万 = 0.026878464 B (Billion) 问题：椭圆和圆的区别回答：椭圆和圆的区别椭圆的区别主要是椭圆的形状，而椭圆的区别主要是在椭圆中部的位置上。椭圆的区别主要是椭圆的大小，椭圆的位置比较大，椭圆的位置比较大，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较大，椭圆的位置比较小，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较长。椭圆的区别椭圆的区别主要是椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较低，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高。椭圆的区别椭圆的区别主要是椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高。以上是椭圆的区别，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高，椭圆的位置比较高。 5.84230637550354 s 问题：中国关于马克思主义基本原理回答：的讲座，既有马克思主义哲学原理的阐述，也有马克思主义哲学的实践，既有马克思主义中国化时代背景，也有马克思主义中国化时代背景。从马克思主义基本理论到马克思主义中国化时代背景，从马克思主义中国化时代背景、马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中汲取精神营养，从马克思主义中国化时代背景，从马克思主义中国化的主题出发，从中西文化的关系、马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化的主题出发，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化的主题出发，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时代背景，从马克思主义中国化时 5.8052077293396 s 问题：人类大脑的主要功能是回答：调节大脑的功能，使大脑的功能得到充分发挥，从而使大脑更加健康。一、大脑中的大脑...

wanglunhui2012

月之暗面验证Muon优化器在小模型上可用

要不集成一下试试？ https://github.com/MoonshotAI/Moonlight

ningpengtao-coder

torch不调用gpu

首先感谢您优秀的工作！我在一台windows11上尝试训练，配置为32g + 2080s； cuda版本： > | NVIDIA-SMI 572.47 Driver Version: 572.47 CUDA Version: 12.8 | nvcc版本： > Cuda compilation tools, release 12.8, V12.8.61 cudnn版本： > v9.7 使用anaconda维护虚拟环境；之前有尝试过几个数值回归的神经网络demo，安装的torch version=2.5.1；是可以调用gpu的；在尝试本工程时，使用了requ文件，可以正常启动模型及对话，目前也可以进行预训练，但是无法调用gpu；想了解下如何解决？...

Wang-Bo-xuan

How to convert to ONNX?

Hello, you guy made a great work here, But Can I ask How to convert the Minimind-Small to Onnx?

Lavi-Vu

游戏本16G显存可以训练吗？

6

如题

wjtxt

请问大模型的幻觉/不安全答复的问题是否有做针对性优化？

2

感谢作者这么好的项目，请问大模型的幻觉/不安全答复的问题是否有做针对性优化？我看文章中似乎没有提及这块内容，感谢答复

rainfallLLF

请问完整复现MiniMindV2的训练参数

1

请问完整复现MiniMindV2的训练参数，主要是每个阶段的epoch不清楚。另外请问sft512和sft2048两个sft是分两次训练吗？怎么在512的基础上继续训练2048。可能问题比较新手，非常感谢大佬指导下。

cjrzh

minimind模型的网络运行架构图，可供参考！！！

1

minimind模型的网络运行架构图绘制，可供参考！！！ ![Image](https://github.com/user-attachments/assets/37d274e4-4234-4eb8-a8b8-9b0dc96054f2)

PPalouga

模型的Attention实现中，是不是缺少mask矩阵

2

```python output = F.scaled_dot_product_attention( xq, xk, xv, attn_mask=None, dropout_p=dropout_p, is_causal=True ) ``` 我还不是特别了解。但是看到一些其他的attention实现比如deepseek-v3，发现都有传入三角矩阵，项目源代码里面的attention实现，如果走贴在这里的内置函数，是不是就缺少了mask。这个对于llm单向注意力应该还是比较关键的吧 PS：当前做预训练还是看出来有效果的，只是想吧ds的MLA注意力引入进来看下效果，所以有些疑问。

Zephor5

作者大大，我自己做了一些预训练、sft、lora微调的数据，数据不是很大，训练之后的测试答复并不是太理想，目前显卡是2080ti-12G，可否给些思路，非常感谢您！

5

yangbig730

minimind
minimind copied to clipboard

Metadata

训练结果评估

月之暗面验证Muon优化器在小模型上可用

torch不调用gpu

How to convert to ONNX?

游戏本16G显存可以训练吗？

请问大模型的幻觉/不安全答复的问题是否有做针对性优化？

请问完整复现MiniMindV2的训练参数

minimind模型的网络运行架构图，可供参考！！！

模型的Attention实现中，是不是缺少mask矩阵

作者大大，我自己做了一些预训练、sft、lora微调的数据，数据不是很大，训练之后的测试答复并不是太理想，目前显卡是2080ti-12G，可否给些思路，非常感谢您！

← Metadata

Owner

Metadata

minimind minimind copied to clipboard

Metadata

← Metadata

Owner

Metadata

minimind
minimind copied to clipboard