Lyu Shuhang
Lyu Shuhang
> 应该是paddle框架的安装不太正确,或者匹配的版本不对。 检查下cuda版本匹配等问题或者重新安装试试。 @xiaohangguo 我本机是cudatoolkit==11.7 按理说 api接口低于11.7都能安装。 @ZeyuChen 不知道paddle是怎么回事,但是我用了这个命令解决了,你们也可以采纳一下 `pip install paddlepaddle==2.4.0rc0`
> 请问RLHF进展怎么样了? https://github.com/InternLM/xtuner/discussions/257#discussion-5925816 目前在论文阅读,社区组队,准备一起开发
我做了一个 one-shot ,学着写一个,python解释器的样例,佬看一下对不对 @pppppM @fanqiNO1 ``` [ { "messages": [ { "role": "user", "content": "帮我用scipy计算一个矩阵的逆" }, { "role": "assistant", "content": "Sure, I will perform the matrix inversion using scipy.", "function_call":...
@pppppM @LZHgrla code_interpreter_call的部分不用参与训练嘛? data:image/s3,"s3://crabby-images/d7a69/d7a695a0123655051b8ae13118ceb100b42f775c" alt="image" data:image/s3,"s3://crabby-images/48e8c/48e8cd12bb237ed8129b59be2d0b91b0fd6af05b" alt="8c869fa845ae1330445aa292017eae5"
> 最好添加一些注释,展示一下输入 ckpt dir 的格式 ok,我写了一下help
@pppppM 佬,是不是还得在哪加个readme.md?
> ref_model 要不直接用 llm 的 config 重新 build ? > > loss 为 nan 可能要 @xiaohangguo 帮忙看下公式细节 好,今晚我切到这个分支复现一下,debug看看
写了个Mock 数据pytest来验证算法,目前测试结果,loss计算应该是没有问题。 ``` import torch import torch.nn.functional as F from unittest import TestCase, main # from utils import print class MockModelOutput: def __init__(self, logits): self.logits = logits class TestModel: def...
把item_fn 搞了一下,但感觉还是有问题,单个conversation,应该是可以的,不知道能否和原来的encode_fn 结合,对于整个数据集处理好,正常走packer。 @LZHgrla ZH哥,麻烦帮忙看下看行不行
> `NPROC_PER_NODE=8 xtuner train internlm2_chat_1_8b_full_dpo_ultra_e3 --deepspeed deepspeed_zero2` 目前 full dpo loss 正常了: 接下来按照 trl 文档里的说明添加 qlora dpo: https://moon-ci-docs.huggingface.co/docs/trl/pr_1193/en/dpo_trainer#downsides-to-merging-qlora-before-dpo-approach-2 太强了!