ChesonHuang comments

Results 19 comments of


                                            ChesonHuang

这个问题太折磨了，找不到解决方法，有没有大神看一下

> > > > > accum_freq > > > > > > > > > > > > shell脚本里面，将--accum_freq=xxx 改成 --accum-freq=xxx ![image](https://private-user-images.githubusercontent.com/34369493/322208459-6a878ab1-60cc-4623-807a-a6a1efb8c58d.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTMwMTUyNjAsIm5iZiI6MTcxMzAxNDk2MCwicGF0aCI6Ii8zNDM2OTQ5My8zMjIyMDg0NTktNmE4NzhhYjEtNjBjYy00NjIzLTgwN2EtYTZhMWVmYjhjNThkLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA0MTMlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNDEzVDEzMjkyMFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTc1NjE5YjZkYTA4NTRjYjFiMDllOGZiM2UzZTEzMmI2ODQ4ZTk0ZjFiYTUwYmY3NDZhZTI1MWRlMDM1ZTNiYTMmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.arnP6IMTQJvms7n-MUXQ0p4PmYpiInbjfntY2G8vWTM) > > > > > > > >...

关于ACC和R@5的问题

给下你的valid_texts.jsonl中的2-3条数据看看，我之前遇到这样的问题是，在json里面，一个文本只对应了少部分数据，但实际一个文本应该对应所有数据。例如，在验证集中，如果你的一个文本，对应了 5 个图片，那么这5个图片都要放在image_ids里面，你可以看实现逻辑：即 ground_truth_ids里面的数据少了，所以导致recall分数低 ![image](https://github.com/OFA-Sys/Chinese-CLIP/assets/34369493/429503aa-fc21-4406-8426-95de965234a5)

请问在chinese-clip获取到图文特征json数据后，如何在clip-retrieval使用呢，想搭建自己的demo

请问搞定了吗，这两天我也在弄这个

请问在chinese-clip获取到图文特征json数据后，如何在clip-retrieval使用呢，想搭建自己的demo

> > 请问搞定了吗，这两天我也在弄这个 > > 目前看是微调好模型后用那个.pt文件去在clip-retrieval中进行inference 如果你弄出来了了什么的麻烦告诉我提了个 pr , 原因是all_clip并不支持chinese clip, 因为state_dict参数不相同，你也可以参考此 pr 本地修改https://github.com/data2ml/all-clip/pull/27

请问在chinese-clip获取到图文特征json数据后，如何在clip-retrieval使用呢，想搭建自己的demo

> > > > 请问搞定了吗，这两天我也在弄这个 > > > > > > > > > 目前看是微调好模型后用那个.pt文件去在clip-retrieval中进行inference 如果你弄出来了了什么的麻烦告诉我 > > > > > > 提了个 pr , 原因是all_clip并不支持chinese clip, 因为state_dict参数不相同，你也可以参考此 pr 本地修改[data2ml/all-clip#27](https://github.com/data2ml/all-clip/pull/27)...

关于ACC和R@5的问题

> > @ChesonHuang @keminze ![image](https://private-user-images.githubusercontent.com/122711212/322871128-d33dc3c1-d707-4d61-a766-1ab48bd193f0.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTM1MTYzOTAsIm5iZiI6MTcxMzUxNjA5MCwicGF0aCI6Ii8xMjI3MTEyMTIvMzIyODcxMTI4LWQzM2RjM2MxLWQ3MDctNGQ2MS1hNzY2LTFhYjQ4YmQxOTNmMC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwNDE5JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDQxOVQwODQxMzBaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0xZmU2ZDA0MDhkNDIyZTYwNWQyNDJhZDEzNzczNjJhYzg2YjNhYjQ5MGIwYmI1NDJlY2JmYzQ5OTc5M2FlOGMxJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.Ub1qPrh60zSw1CZFbx835fmRFITsWFsnBSfWqAUxIr4) 这是我运行脚本得出来的召回分数是用微调后的权重的 > > 你好，我遇到了同样的问题，请问您发现错误解决了吗？感谢！建议你在 cn_clip/eval/evaluation.py 或 cn_clip/eval/evaluation_tr.py, 打印下 ground_truth_ids 和 top10_pred_ids 看看，或许它可以告诉真相

关于ACC和R@5的问题

> ![Snipaste_2024-04-21_18-46-40](https://private-user-images.githubusercontent.com/77883069/324241901-eebbdfed-c0bc-4bb7-ad4c-acff6fbf6e75.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTM3MDc3ODAsIm5iZiI6MTcxMzcwNzQ4MCwicGF0aCI6Ii83Nzg4MzA2OS8zMjQyNDE5MDEtZWViYmRmZWQtYzBiYy00YmI3LWFkNGMtYWNmZjZmYmY2ZTc1LnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA0MjElMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNDIxVDEzNTEyMFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWNiYzFhOTEzZWJmOGM5ZDQxYmRiZGUwZDdlMWViMWU5MDdlY2NhNzE3OWU2MWMwNDMwM2RiMDgxZWE3MGFiZDQmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.NPUUC6WaUaz1yGMPSJP6bCOFgQEJTnUvVM2gHA5GJaA) dan'qi'shi但其实我输出后也就是这样，应该没问题吧，因为他标签都是一对一的有问题的，你的图片id是: 140010041888, 但你模型预测的top10里面没有这个图片id，所以r@x都是0；说明你训练的模型预测不准确 update: 还有一种可能是，输入的图片必须存在valid数据集对应文本的image_ids里面，但140010041888这个图片并没有在image_ids中

请问CLIPTokenizer和Chinese-CLIP中的什么对应呢？

> @yangapku 用transformers 里面的ChineseCLIP load之后，如何根据图片生成文字描述呢？我研究了下，似乎没法直接生成文本描述，只能给定文本下进行预测。应该需要一个decoder来解码输出文本，真难啊

请问CLIPTokenizer和Chinese-CLIP中的什么对应呢？

@luohao123 我是新手。解决思路是：编写一个解码器，然后通过图片，生成对应文字的编码，通过解码器解码成中文，我也需要写这个解码器，有后续再说吧。类似于下面的例子https://github.com/huggingface/transformers/blob/5346db168481640d1ce18f464470b102993049e7/src/transformers/models/clvp/processing_clvp.py#L78