chaochao issues

Results 3 issues of


                                            chaochao

关于第三章: 注意力机制实现的问题

在下面的代码中, 我觉得应该表明为什么 Q, K, V 向量序列是等于 inputs_embeds 的, 我理解的是注意力机制中的 QKV 是 embedding 与 W_Q 和 W_K , W_V 这三个矩阵相乘得到的, 这三个矩阵也是超参数, 而下面的代码是好像默认这三个矩阵是单位矩阵. `import torch from math import sqrt Q =...

你好，我使用了三个开源问答数据集，分别为 Squad、Commonsense、ai2_arc 来进行多任务微调，但我迄今为止微调三次试验结果都不如单次微调甚至不如混合微调，我使用 mistral_v0.2 模型对三个数据集分别进行微调、混合微调、不微调、MFTcoder 微调进行比较，下面是我的实验结果：所以我在怀疑是我微调参数是否出了问题，或者说这三个问答子任务相关性并不强所以导致这种现象。所以在此提出 issue 来向你们请教。此外你的配置选项中有一些参数并没有说明，例如 data weight 等，我觉得对于框架使用者来说还是完善一些更好。下面是我的第三次 mftcoder 微调配置： ```bash { "data_paths": "[data/ai2_arc,data/squad,data/commonsense_qa]", "output_dir": "model/mistral/single_train_2024-06-13/lora_adaptor", "tb_dir": "model/mistral/single_train_2024-06-13/tensorboard", "pretrained_model_path": "AI-ModelScope/Mistral-7B-Instruct-v0___2", "model_type": "mistral", "load_raw_dataset": true,...

How to fine-tune cappy ?

Hello, actually I want to use my own data to fine-tune cappy to get better output, but after I fine-tune cappy, the output is quite different from label. I would...

chaochao

关于第三章: 注意力机制 实现的问题

实验 MFTCoder 的效果总是不尽人意

How to fine-tune cappy ?

关于第三章: 注意力机制实现的问题