Zhe Chen

Results 316 comments of Zhe Chen

> 哦哦好滴 感谢 如果只是做中文的图文对话微调 该怎么设置一下呀 在[第二步](https://github.com/OpenGVLab/InternVL/blob/main/internvl_chat/CONTINUED_FINETUNE.md#2-prepare-your-custom-training-data)里,准备一下中文数据的meta信息。 首先在`internvl_chat/shell/data/`这个目录底下新建一个json文件,在里面写上你的中文数据集的meta信息,这里以中文数据`llava_instruct_150k_zh`为例,就是: ``` { "llava_instruct_150k_zh": { "root": "playground/data/coco/", "annotation": "playground/llava_instruct_150k_zh.jsonl", "data_augment": false, "repeat_time": 1, "length": 157712 } } ``` 如果数据量不大的话,可以选择微调lora模型,那么就使用[这个shell脚本](https://github.com/OpenGVLab/InternVL/blob/main/internvl_chat/shell/hermes2_yi34b/internvl_chat_v1_2_hermes2_yi34b_448_finetune_continue_lora.sh)。 在`--model_name_or_path`填写下载的模型路径,如果要微调Plus版本,请修改为`--model_name_or_path "./pretrained/InternVL-Chat-Chinese-V1-2-Plus"`。然后在`--meta_path`这里写上刚刚新建的json文件的路径。 最后用2个A100 80G GPU来训练这个模型。

## 数据格式 我们的数据采用了JSONL(JSON Lines)格式。JSONL是一种文本格式,每行都是一个独立的JSON对象。每个JSON对象表示一个数据示例,其中包含了对话内容以及相关的元数据。 ## 数据结构 每个数据示例都包含以下字段: - `"id"`: 数据示例的唯一标识符。 - `"image"`: 图像文件的路径。 - `"conversations"`: 对话内容列表,包含了交替的用户(human)和模型(gpt)对话。 对话内容列表中的每个对话对象包含以下字段: - `"from"`: 对话的发起者,可以是 "human" 或 "gpt"。 - `"value"`: 对话内容。 ## 数据准备步骤 为了准备数据以供使用,您可以按照以下步骤进行操作: 1....

Hello, we also very much hope to make this model run faster and have been attempting some improvements in this area recently. I will keep you updated on any progress.

Hi, thank you for your suggestion. I will add compatibility with community tools to my to-do list.

Thanks for your feedback.

Yes, the mlp weights are released at https://huggingface.co/OpenGVLab/InternViT-6B-448px-V1-2/blob/main/mlp_projector.pth

Hello, of course. You can use model.encode_image() and model.encode_text() individually. The following code is the forward function of InternVL, like a standard CLIP model. You can use `model.encode_image(image, mode)` and...

You can use this function to get the output embedding of QLLaMA: https://github.com/OpenGVLab/InternVL/blob/main/clip_benchmark/clip_benchmark/models/internvl_huggingface/modeling_internvl.py#L337

您好,感谢反馈。现在这个版本确实还存在比较高的重复概率,经过统计,在总量中大概占比3%左右,在涉及到OCR的问答中会更频繁一些,主要是训练数据没有清洗干净导致的,下一个版本会着重修复这个问题。