Rocky77JHxu issues

Results 3 issues of


                                            Rocky77JHxu

gradio version error

Hello author of facechain, as of today, I have found that it is best to follow the version of `gradio=3.23` in the graphic. Otherwise, many old codes do not support...

您好，您们的工作分享对于LLM初学者来说有着很大的启发！我也是其中之一。在浏览完所有自述文件后，我观察到您们有多个数据集，特别是包含了大量角色扮演的数据集。我想请教下您们对于多个角色，是通过微调不同的角色模型，还是通过分阶段微调来对一个模型不断增强？如果是分阶段微调的话，具体是怎么做的呢？因为我之前尝试实战了一个医疗大模型的微调，我发现医疗下仍然有很多细分场景，比如智能问诊，医药问答，以及您们工作中所提到的心理健康等等。我在思考这些细分场景是全部塞入一个大数据集内统一微调，还是分阶段微调合适呢？这个问题相对来说偏于个人，如果能收到您们的答复，我将不胜感激！

Informative Responses to Thoughtful Questions

7B模型在4*A100 80GB上发生OOM

当我针对`InternLM-XComposer2_5-7B`模型进行评估时，出现了OOM，配置是4*A100 80GB。我观察到执行过程送入query进入模型的速度非常的快，发生OOM的原因是否和一次性送入的batch有关？刚开始的时候，每块GPU显存在20~70GiB上下疯狂跳动，而在第12轮左右便发生了OOM。但是同样的4*A100 80GB的硬件条件下，评估 `InternVL2-40B`竟然没有任何问题，显存也很稳定的在45GB左右。不过执行的速度很慢，似乎在`InternVL2-40B`中每次就送入一个batch。这很奇怪，如果是batch问题我应该如何修改它？我尝试修改过`${VLMEvalKit}/vlmeval/vlm/xcomposer/xcomposer2d5.py`的代码，但是并不奏效，我也没发现batch是在哪里实现的。如果不是batch问题，我应该如何让7B的模型能够完成评估？ **我的执行命令是：** ```bash torchrun --nproc-per-node=4 run.py --data MathVision MathVision_MINI --model XComposer2d5 --verbose ``` **报错信息：** ![image](https://github.com/user-attachments/assets/8f728cf6-a45c-44ff-88e4-db78eb8d7eaf) 此外，我76B的模型仍然也会有OOM的情况。我尝试先将 76B 模型利用 LMDepoly 部署成 openai 接口，再接入到 VLMEvalKit 评测框架中，但是发现失败了。报错是：`2024-08-13...

Rocky77JHxu

gradio version error

分阶段微调是否合适？ （微调上的细节问题）

7B模型在4*A100 80GB上发生OOM

分阶段微调是否合适？（微调上的细节问题）