No_GPT
No_GPT
原论文里面, 有一步是将bilistm的输出 和 label_embedding(实体识别的标签,做了一次嵌入) 进行拼接的,然后再作为关系预测的输入。 您这里好像,直接将bert的结果作为关系预测的输入。
很感谢您的回答,您的方案,让我对整个模型流程有了更加深入的了解 。方便告知一下,您这个方案,F1值能达到多少吗?
8*24G 4090 sorry!
weights = tf.nn.softmax(logit, name='attention_weights') 这个值就是权重,您可以在最后的session里面把值输出来。对于您,第二个问题,我仔细想了想,也上网查了下。我想不出来有什么好的方法修改权重。神经网络在训练时,跟传统机器学习算法的区别还是很明显的,神经网络是个黑匣子的操作,中间操作不给你看,直接从输入得到输出的结果。
哈哈 我之前在找工作 、搬家 所以很长时间没上来。很高兴能够帮助你
我制作了一个13w的图文对训练集 vis_encoder = 'clip-vit-large-patch14' lang_encoder 为我以前微调过的语言模型 --7B Chinesellama, 训练参数 lr =1e-3,epoch=6,warmup=200 第一次采用原代码没有做任何修改,训练6epochs后,模型到3-4epoch就几乎降不下去了,loss稳定在2.1左右, 6个epochs后最终loss~1.95,eval_loss 2.2, 已经过拟合了 实际中eval-loss最好也只在2.1左右 模型实际验证,效果非常差。 第二次正在训练,将上面那行代码改成如下: for img_i, img_pos in zip(cur_img, img_pos_list): 按顺序做拼接, 目前epoch=2.3, loss~1.98, eval-loss=2.16 个人感觉,此次收敛速度快了些,但最终结果不好说 等我后续的验证结果
> Removing it directly doesn't seem quite right. I recommend keeping it and applying the flip operation to both 'cur_img' and 'img_pos_list'. You are right. I got a better model...
对的 模型经过预训练 微调 然后dpo三个阶段
抱歉 涉及企业内部的一些数据 不会开源的
增量预训练大约6B数据 sft阶段约0.7-0.8B