mango comments

Results 40 comments of


                                            mango

请作者重视，我多次实验发现，如果回答的内容比较长，就回出现截断情况。

> > 揭秘了，目前sft了一个epoch，试了一下，过滤后不在有截断情况了，不过又发现了另外一个问题，就是写不了太长的内容，比如我让模型写1000字的论文，实际只写了500多字，经过多次尝试都是这种情况，推测是不是和指令数据，没有太长的数据有关系呢？ > > 据我的经验，比较准确的控制长度对很多模型来说都是一个比较难的点，除非专门有一些这样的指令调过。你可以试试chatgpt，很多时候也不准。我sft微调加了长度信息，确实会稍微改善一些。

有关sft代码的attention mask的问题

> 我试了在预处理数据时候，把system和user prompt target id位置都置IGNORE_TOKEN_ID，loss曲线就小多了，并且最后推理的结果也是reasonable的请问只是处理target_ids就可以了是吗？input_ids是不是不用处理？

qwen-7b-chat、qwen1.5-7b-chat微调效果对比

> 请问下你的数据量大约是多少需要训练60轮的嘛数据量不大，肯定是不需要训练60轮的，取epoch=3或5的权重测试，1.0的效果明显比1.5要好。

qwen-7b-chat、qwen1.5-7b-chat微调效果对比

> 请问下你的数据量大约是多少需要训练60轮的嘛相关性对比，1.0好，1.5部分测试输出与prompt完全不相关；文本重复上，1.0几乎没有，1.5就有很大的概率重复；

qwen-7b-chat、qwen1.5-7b-chat微调效果对比

> > > 请问下你的数据量大约是多少需要训练60轮的嘛 > > > > > > 相关性对比，1.0好，1.5部分测试输出与prompt完全不相关；文本重复上，1.0几乎没有，1.5就有很大的概率重复； > > 我也遇到了同样的问题，我是14B之间的对比，1.0比1.5遵从提示词的效果要更好。另外我加了epoch降了lr加了batchsize后，1.0遵从提示词的效果也变好了，1.5还没尝试。降低数据的复杂度，1.0和1.5的效果类似了，后续我再微调一组，进一步确认是不是数据复杂度的问题

qwen-7b-chat、qwen1.5-7b-chat微调效果对比

> 在1.5 chat上继续微调，会出现比较明显的灾难性遗忘。是的，还有文本重复以及没有结束符的问题；

get the HDR image in .hdr or .exr format

@chxy95 please, what operation gamma inversion is? thanks.

输出图片尺寸问题

> 这个原因主要是因为Hallucination_Generator使用了一个类似UNet的结构，为了保证下采样再上采样时的特征向量尺寸对齐问题，在生成数据时做了一个尺寸的调整。这个问题在生成数据过程中可以把GT用相同的方式调整到与HG相同的尺寸。如果想输出与GT相同的尺寸，使用padding + crop的方式即可。我们正在对现在这个模型进行改进，拟对ICCV版本增刊，欢迎持续关注~ 谢谢，会持续关注！请问如果我希望获取的是一个HLG的视频，是否可以直接在最终的ffmpeg合成帧阶段(对应代码：synthesizing_hdr10_video.sh)进行更改，而不使用HDR(HLG标准)、SDR图像对重新对模型进行训练呢？

输出图片尺寸问题

> > > 这个原因主要是因为Hallucination_Generator使用了一个类似UNet的结构，为了保证下采样再上采样时的特征向量尺寸对齐问题，在生成数据时做了一个尺寸的调整。这个问题在生成数据过程中可以把GT用相同的方式调整到与HG相同的尺寸。如果想输出与GT相同的尺寸，使用padding + crop的方式即可。我们正在对现在这个模型进行改进，拟对ICCV版本增刊，欢迎持续关注~ > > > > > > 谢谢，会持续关注！请问如果我希望获取的是一个HLG的视频，是否可以直接在最终的ffmpeg合成帧阶段(对应代码：synthesizing_hdr10_video.sh)进行更改，而不使用HDR(HLG标准)、SDR图像对重新对模型进行训练呢？ > > 不可行。两种视频编码差异不小，按目前的训练集训练，网络输出的是HDR10的内容，按HLG标准编码可能会导致色彩和亮度偏差。好的，谢谢