chaochao

Results 3 issues of chaochao

在下面的代码中, 我觉得应该表明为什么 Q, K, V 向量序列是等于 inputs_embeds 的, 我理解的是注意力机制中的 QKV 是 embedding 与 W_Q 和 W_K , W_V 这三个矩阵相乘得到的, 这三个矩阵也是超参数, 而下面的代码是好像默认 这三个矩阵是单位矩阵. `import torch from math import sqrt Q =...

你好,我使用了三个开源问答数据集,分别为 Squad、Commonsense、ai2_arc 来进行多任务微调,但我迄今为止微调三次试验结果都不如单次微调甚至不如混合微调,我使用 mistral_v0.2 模型对三个数据集分别进行微调、混合微调、不微调、MFTcoder 微调进行比较,下面是我的实验结果: 所以我在怀疑是我微调参数是否出了问题,或者说这三个问答子任务相关性并不强所以导致这种现象。所以在此提出 issue 来向你们请教。 此外你的配置选项中有一些参数并没有说明,例如 data weight 等,我觉得对于框架使用者来说还是完善一些更好。 下面是我的第三次 mftcoder 微调配置: ```bash { "data_paths": "[data/ai2_arc,data/squad,data/commonsense_qa]", "output_dir": "model/mistral/single_train_2024-06-13/lora_adaptor", "tb_dir": "model/mistral/single_train_2024-06-13/tensorboard", "pretrained_model_path": "AI-ModelScope/Mistral-7B-Instruct-v0___2", "model_type": "mistral", "load_raw_dataset": true,...

Hello, actually I want to use my own data to fine-tune cappy to get better output, but after I fine-tune cappy, the output is quite different from label. I would...