Yiming Cui comments

Results 165 comments of


                                            Yiming Cui

使用Openai_api_server.py,进行推理出现RuntimeError

不太清楚。colab上都能跑通，不知道你这个是因为版本问题还是什么总出错。你参考我跑的colab记录，自行debug吧。 https://colab.research.google.com/drive/1mbHo-kAL_zP-JX8TIdLcYYidpTryw6KP?usp=sharing

哪个大语言模型呢（LLM）

你好，demo中调用了`text-davinci-003`。具体可以看：https://huggingface.co/spaces/hfl/VQA_VLE_LLM/blob/80849bef7df0ba9928edd23a908831f12e97455f/app.py#L43

Colab中微调报错： CUDA out of memory

什么GPU OOM了？

Colab中微调报错： CUDA out of memory

你的运行脚本里`modules_to_save="embed_tokens,lm_head"`，这两个部分不是LoRA训练。可以考虑设置为None，看看是否能训起来。

Colab中微调报错： CUDA out of memory

你重新加载运行时了吗？确保显卡清空RAM之后再运行。昨天用colab T4都能跑通的（`modules_to_save=None`），你自己再检查一下吧。或者你用其他兼容llama-3训练精调的工具也都可以。

Colab中微调报错： CUDA out of memory

https://github.com/ymcui/Chinese-LLaMA-Alpaca-3/wiki/llamacpp_zh#step-2-生成量化版本模型

WIP docs(README): add lmdeploy

Thanks for your contribution. We'll schedule a PR review asap. Note that we might make necessary modifications to `README.md` to satisfy our editing policies.

请问是否支持英文或者中英混合？

建议你自行尝试。主要场景还是处理中文文本。不排除能处理一些英文，但相比纯英文的模型效果应该是要差一些的。

请问中文对战平台是如何实现的，会开源相关代码吗

README中有写，是仿照FastChat制作的，基于Gradio实现：https://chat.lmsys.org/?arena 暂时没有时间整理并开源代码，你可以访问他们的网站或者GitHub了解demo页面的实现。

为什么llama的回答特别地乱

因为你加载的是llama，这个是基座模型，不适用于聊天交互。应该使用alpaca模型，并加载对应的指令模板。