CongLin comments

Results 5 comments of


                                            CongLin

DeepSeekV3-671B-BF16 Lora Finetune

> modeling 文件需要做哪些修改啊，目前有下面两个问题 ![image](https://private-user-images.githubusercontent.com/48802940/411816674-3c30dbbb-feb5-47ac-a25f-9adb6309f1b3.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzkyNDMzNDIsIm5iZiI6MTczOTI0MzA0MiwicGF0aCI6Ii80ODgwMjk0MC80MTE4MTY2NzQtM2MzMGRiYmItZmViNS00N2FjLWEyNWYtOWFkYjYzMDlmMWIzLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNTAyMTElMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjUwMjExVDAzMDQwMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTk2YzJhNDM4MDVlNGNmMjRhZWZhODZjMzQ0YTMwOTUwYzQ0M2VhZWRkM2RmYjU4ZTI3NjU5YzdkOGVhMDBlYTAmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.siV-VAVJn0pxt2QL9t34lmTEpPjVLhvEag83P1QL7ug) assert not self.training 应该可以直接忽略掉，这段是已经得到所有expert的routing scores之后算出topk，然后根据topk indices去取routing scores。中间部分都是在算topk indices，训练只要保证取出来scores也就是topk weight有梯度回传就行。

DeepSeekV3-671B-BF16 Lora Finetune

> > assert not self.training 应该可以直接忽略掉，这段是已经得到所有expert的routing scores之后算出topk，然后根据topk indices去取routing scores。中间部分都是在算topk indices，训练只要保证取出来scores也就是topk weight有梯度回传就行。 > > 如果忽略掉的话，那整个MOE模块就不会更新参数了。这样的话，是load已有的模型还好，但是如果是想要借用该文件，从零开始train的话，就肯定不成了。 > > 但是看deepseek V2的moe模块有相关的训练代码，在试能不能复用为啥忽略掉就不会更新参数，是这个实现中topk_weight没有梯度吗？我现在没资源，你是跑过发现这个情况吗？还有我这里只是说MoEGate，DeepseekV3MoE哪个moe_infer还在看

DeepSeekV3-671B-BF16 Lora Finetune

我们说的不是一件事

[bug] 请问huggingface上chat template写错的问题已经修正了吗

> Thank you for your interest in our work. We have updated the `tokenizer_config.json` file of InternVL2.5 and InternVL3 to fix this issue. See this [commit](https://huggingface.co/OpenGVLab/InternVL3-14B/commit/4d17b962a04848e4394916b127cdb2cab0dbeb2f) for more details. Thanks...

VLLM 部署

FireRedASR-LLM主干是Qwen2-7B-Instruct，但是它做inference的时候需要直接输入hidden_state，vllm server好像还不支持这个方式，不知道官方有没有魔改的vllm可供部署