ChesonHuang

Results 19 comments of ChesonHuang

> > > > > accum_freq > > > > > > > > > > > > shell脚本里面,将--accum_freq=xxx 改成 --accum-freq=xxx ![image](https://private-user-images.githubusercontent.com/34369493/322208459-6a878ab1-60cc-4623-807a-a6a1efb8c58d.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTMwMTUyNjAsIm5iZiI6MTcxMzAxNDk2MCwicGF0aCI6Ii8zNDM2OTQ5My8zMjIyMDg0NTktNmE4NzhhYjEtNjBjYy00NjIzLTgwN2EtYTZhMWVmYjhjNThkLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA0MTMlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNDEzVDEzMjkyMFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTc1NjE5YjZkYTA4NTRjYjFiMDllOGZiM2UzZTEzMmI2ODQ4ZTk0ZjFiYTUwYmY3NDZhZTI1MWRlMDM1ZTNiYTMmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.arnP6IMTQJvms7n-MUXQ0p4PmYpiInbjfntY2G8vWTM) > > > > > > > >...

给下你的valid_texts.jsonl中的2-3条数据看看,我之前遇到这样的问题是,在json里面,一个文本只对应了少部分数据,但实际一个文本应该对应所有数据。例如,在验证集中,如果你的一个文本,对应了 5 个图片,那么这5个图片都要放在image_ids里面,你可以看实现逻辑:即 ground_truth_ids里面的数据少了,所以导致recall分数低 ![image](https://github.com/OFA-Sys/Chinese-CLIP/assets/34369493/429503aa-fc21-4406-8426-95de965234a5)

> > 请问搞定了吗,这两天我也在弄这个 > > 目前看是微调好模型后用那个.pt文件去在clip-retrieval中进行inference 如果你弄出来了了什么的麻烦告诉我 提了个 pr , 原因是all_clip并不支持chinese clip, 因为state_dict参数不相同,你也可以参考此 pr 本地修改https://github.com/data2ml/all-clip/pull/27

> > > > 请问搞定了吗,这两天我也在弄这个 > > > > > > > > > 目前看是微调好模型后用那个.pt文件去在clip-retrieval中进行inference 如果你弄出来了了什么的麻烦告诉我 > > > > > > 提了个 pr , 原因是all_clip并不支持chinese clip, 因为state_dict参数不相同,你也可以参考此 pr 本地修改[data2ml/all-clip#27](https://github.com/data2ml/all-clip/pull/27)...

> > @ChesonHuang @keminze ![image](https://private-user-images.githubusercontent.com/122711212/322871128-d33dc3c1-d707-4d61-a766-1ab48bd193f0.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTM1MTYzOTAsIm5iZiI6MTcxMzUxNjA5MCwicGF0aCI6Ii8xMjI3MTEyMTIvMzIyODcxMTI4LWQzM2RjM2MxLWQ3MDctNGQ2MS1hNzY2LTFhYjQ4YmQxOTNmMC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwNDE5JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDQxOVQwODQxMzBaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0xZmU2ZDA0MDhkNDIyZTYwNWQyNDJhZDEzNzczNjJhYzg2YjNhYjQ5MGIwYmI1NDJlY2JmYzQ5OTc5M2FlOGMxJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.Ub1qPrh60zSw1CZFbx835fmRFITsWFsnBSfWqAUxIr4) 这是我运行脚本得出来的召回分数 是用微调后的权重的 > > 你好,我遇到了同样的问题,请问您发现错误 解决了吗? 感谢! 建议你在 cn_clip/eval/evaluation.py 或 cn_clip/eval/evaluation_tr.py, 打印下 ground_truth_ids 和 top10_pred_ids 看看,或许它可以告诉真相

> ![Snipaste_2024-04-21_18-46-40](https://private-user-images.githubusercontent.com/77883069/324241901-eebbdfed-c0bc-4bb7-ad4c-acff6fbf6e75.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTM3MDc3ODAsIm5iZiI6MTcxMzcwNzQ4MCwicGF0aCI6Ii83Nzg4MzA2OS8zMjQyNDE5MDEtZWViYmRmZWQtYzBiYy00YmI3LWFkNGMtYWNmZjZmYmY2ZTc1LnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA0MjElMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNDIxVDEzNTEyMFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWNiYzFhOTEzZWJmOGM5ZDQxYmRiZGUwZDdlMWViMWU5MDdlY2NhNzE3OWU2MWMwNDMwM2RiMDgxZWE3MGFiZDQmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.NPUUC6WaUaz1yGMPSJP6bCOFgQEJTnUvVM2gHA5GJaA) dan'qi'shi但其实我输出后也就是这样,应该没问题吧,因为他标签都是一对一的 有问题的,你的图片id是: 140010041888, 但你模型预测的top10里面没有这个图片id,所以r@x都是0;说明你训练的模型预测不准确 update: 还有一种可能是,输入的图片必须存在valid数据集对应文本的image_ids里面,但140010041888这个图片并没有在image_ids中

> @yangapku 用transformers 里面的ChineseCLIP load之后,如何根据图片生成文字描述呢? 我研究了下,似乎没法直接生成文本描述,只能给定文本下进行预测。应该需要一个decoder来解码输出文本,真难啊

@luohao123 我是新手。解决思路是:编写一个解码器,然后通过图片,生成对应文字的编码,通过解码器解码成中文,我也需要写这个解码器,有后续再说吧。类似于下面的例子https://github.com/huggingface/transformers/blob/5346db168481640d1ce18f464470b102993049e7/src/transformers/models/clvp/processing_clvp.py#L78