ChesonHuang
ChesonHuang
> > > > > accum_freq > > > > > > > > > > > > shell脚本里面,将--accum_freq=xxx 改成 --accum-freq=xxx  > > > > > > > >...
给下你的valid_texts.jsonl中的2-3条数据看看,我之前遇到这样的问题是,在json里面,一个文本只对应了少部分数据,但实际一个文本应该对应所有数据。例如,在验证集中,如果你的一个文本,对应了 5 个图片,那么这5个图片都要放在image_ids里面,你可以看实现逻辑:即 ground_truth_ids里面的数据少了,所以导致recall分数低 
请问搞定了吗,这两天我也在弄这个
> > 请问搞定了吗,这两天我也在弄这个 > > 目前看是微调好模型后用那个.pt文件去在clip-retrieval中进行inference 如果你弄出来了了什么的麻烦告诉我 提了个 pr , 原因是all_clip并不支持chinese clip, 因为state_dict参数不相同,你也可以参考此 pr 本地修改https://github.com/data2ml/all-clip/pull/27
> > > > 请问搞定了吗,这两天我也在弄这个 > > > > > > > > > 目前看是微调好模型后用那个.pt文件去在clip-retrieval中进行inference 如果你弄出来了了什么的麻烦告诉我 > > > > > > 提了个 pr , 原因是all_clip并不支持chinese clip, 因为state_dict参数不相同,你也可以参考此 pr 本地修改[data2ml/all-clip#27](https://github.com/data2ml/all-clip/pull/27)...
> > @ChesonHuang @keminze  这是我运行脚本得出来的召回分数 是用微调后的权重的 > > 你好,我遇到了同样的问题,请问您发现错误 解决了吗? 感谢! 建议你在 cn_clip/eval/evaluation.py 或 cn_clip/eval/evaluation_tr.py, 打印下 ground_truth_ids 和 top10_pred_ids 看看,或许它可以告诉真相
>  dan'qi'shi但其实我输出后也就是这样,应该没问题吧,因为他标签都是一对一的 有问题的,你的图片id是: 140010041888, 但你模型预测的top10里面没有这个图片id,所以r@x都是0;说明你训练的模型预测不准确 update: 还有一种可能是,输入的图片必须存在valid数据集对应文本的image_ids里面,但140010041888这个图片并没有在image_ids中
> @yangapku 用transformers 里面的ChineseCLIP load之后,如何根据图片生成文字描述呢? 我研究了下,似乎没法直接生成文本描述,只能给定文本下进行预测。应该需要一个decoder来解码输出文本,真难啊
@luohao123 我是新手。解决思路是:编写一个解码器,然后通过图片,生成对应文字的编码,通过解码器解码成中文,我也需要写这个解码器,有后续再说吧。类似于下面的例子https://github.com/huggingface/transformers/blob/5346db168481640d1ce18f464470b102993049e7/src/transformers/models/clvp/processing_clvp.py#L78