jingyaogong

Results 79 comments of jingyaogong

> > 可以修改一下这个函数, utils.py里面: > > ```python > > def auto_configure_device_map(num_gpus: int) -> Dict[str, int]: > > # transformer.word_embeddings 占用1层 > > # transformer.final_layernorm 和 lm_head 占用1层 > > #...

1.清华大学云盘 [https://cloud.tsinghua.edu.cn/d/674208019e314311ab5c/](url) 2.百度网盘 [https://pan.baidu.com/s/1rn1ZtjgfMZg_Kw4PNd3jVQ?pwd=aiha](url)

I very much agree with you, now this sftp function is almost unusable, the function is too little, only can browse files to download individual files, rush more authors it,...

![image](https://github.com/user-attachments/assets/3ff35b68-33cc-48ec-a71e-70639cb568f9) 很不错的记录,谢谢!

> LoRA SFT, 这个怎么用前面自己训练好的模型,不要从hf上下载 `export_model` 把你的模型导出成transformers格式,再按照from_pretrained加载它

> 有个小疑问就是,我的设备是4个2080ti 22G,图灵架构,不支持flash-attention2. > 会影响往下做实验吗? 没有影响的哦,无flash-attn自动用普通attn计算

> 作者大大,你太牛了。上班看到的,忍不住要动手。 > 我有一个数据集在qwen2-0.5B上SFT效果很好,心里一直想要往下再scale,看看在超级小的模型上的表现如何。 > 这。。。这不就来了吗 > > 求大佬建个微信群~ 照qwen2-0.5B的效果肯定差得多哈哈,只能简单验证一下,不过现在比0.5B的模型还小的确实很少。建群可能无心打理,暂时无打算。 推荐几个相近的、很有启发的、非常优秀的项目,可对照着了解一下。 > 中文对话0.2B小模型(ChatLM-Chinese-0.2B),开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。支持下游任务sft微调,给出三元组信息抽取微调示例。 [https://github.com/charent/ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese) > 用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2. [https://github.com/DLLXW/baby-llama2-chinese](https://github.com/DLLXW/baby-llama2-chinese) > 从0开始,将chatgpt的技术路线跑一遍。 [https://github.com/AI-Study-Han/Zero-Chatgpt](https://github.com/AI-Study-Han/Zero-Chatgpt) > 从零实现一个小参数量中文大语言模型。 [https://github.com/wdndev/tiny-llm-zh](https://github.com/wdndev/tiny-llm-zh) > 从0到1构建一个MiniLLM (pretrain+sft+dpo实践中) [https://github.com/Tongjilibo/build_MiniLLM_from_scratch](https://github.com/Tongjilibo/build_MiniLLM_from_scratch) 感谢关注!!!

> 感谢up主一直留着这个issue,我是今天才刷到minimind RL版的更新。 太棒了! > > 今天还在看相关文章: https://arxiv.org/abs/2402.03300 魔搭的swift也是昨天才放出这个GRPO的功能 https://github.com/modelscope/ms-swift/tree/main/docs/source/Instruction/grpo.md 留着吧太热闹了,大家😂 删除了一些催二维码更新的过期评论,看的更清晰一点~ 这个R1只是直接面向数据蒸馏的结果,不是GRPO从0实现(0.1B基本无法从RL获得答案奖励) 之后会放GRPO算法的从0实现,更新上来。需要想一个更容易获得奖励的数据场景,从而快速看到训练效果,然而这非常难罢了

训2048的时候加载512的权重就可以,V2每个阶段都跑了6个epoch,除了rlhf是1epoch,即可复现

本周稍晚时会更新一个基于104M版本MiniMind模型 【分析+长文本的外推实验】 届时会@😊