CongLin
CongLin
> modeling 文件需要做哪些修改啊,目前有下面两个问题  assert not self.training 应该可以直接忽略掉,这段是已经得到所有expert的routing scores之后算出topk,然后根据topk indices去取routing scores。中间部分都是在算topk indices,训练只要保证取出来scores也就是topk weight有梯度回传就行。
> > assert not self.training 应该可以直接忽略掉,这段是已经得到所有expert的routing scores之后算出topk,然后根据topk indices去取routing scores。中间部分都是在算topk indices,训练只要保证取出来scores也就是topk weight有梯度回传就行。 > > 如果忽略掉的话,那整个MOE模块就不会更新参数了。这样的话,是load已有的模型还好,但是如果是想要借用该文件,从零开始train的话,就肯定不成了。 > > 但是看deepseek V2的moe模块有相关的训练代码,在试能不能复用 为啥忽略掉就不会更新参数,是这个实现中topk_weight没有梯度吗?我现在没资源,你是跑过发现这个情况吗?还有我这里只是说MoEGate,DeepseekV3MoE哪个moe_infer还在看
我们说的不是一件事
> Thank you for your interest in our work. We have updated the `tokenizer_config.json` file of InternVL2.5 and InternVL3 to fix this issue. See this [commit](https://huggingface.co/OpenGVLab/InternVL3-14B/commit/4d17b962a04848e4394916b127cdb2cab0dbeb2f) for more details. Thanks...
FireRedASR-LLM主干是Qwen2-7B-Instruct,但是它做inference的时候需要直接输入hidden_state,vllm server好像还不支持这个方式,不知道官方有没有魔改的vllm可供部署