CongLin

Results 5 comments of CongLin

> modeling 文件需要做哪些修改啊,目前有下面两个问题 ![image](https://private-user-images.githubusercontent.com/48802940/411816674-3c30dbbb-feb5-47ac-a25f-9adb6309f1b3.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzkyNDMzNDIsIm5iZiI6MTczOTI0MzA0MiwicGF0aCI6Ii80ODgwMjk0MC80MTE4MTY2NzQtM2MzMGRiYmItZmViNS00N2FjLWEyNWYtOWFkYjYzMDlmMWIzLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNTAyMTElMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjUwMjExVDAzMDQwMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTk2YzJhNDM4MDVlNGNmMjRhZWZhODZjMzQ0YTMwOTUwYzQ0M2VhZWRkM2RmYjU4ZTI3NjU5YzdkOGVhMDBlYTAmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.siV-VAVJn0pxt2QL9t34lmTEpPjVLhvEag83P1QL7ug) assert not self.training 应该可以直接忽略掉,这段是已经得到所有expert的routing scores之后算出topk,然后根据topk indices去取routing scores。中间部分都是在算topk indices,训练只要保证取出来scores也就是topk weight有梯度回传就行。

> > assert not self.training 应该可以直接忽略掉,这段是已经得到所有expert的routing scores之后算出topk,然后根据topk indices去取routing scores。中间部分都是在算topk indices,训练只要保证取出来scores也就是topk weight有梯度回传就行。 > > 如果忽略掉的话,那整个MOE模块就不会更新参数了。这样的话,是load已有的模型还好,但是如果是想要借用该文件,从零开始train的话,就肯定不成了。 > > 但是看deepseek V2的moe模块有相关的训练代码,在试能不能复用 为啥忽略掉就不会更新参数,是这个实现中topk_weight没有梯度吗?我现在没资源,你是跑过发现这个情况吗?还有我这里只是说MoEGate,DeepseekV3MoE哪个moe_infer还在看

我们说的不是一件事

> Thank you for your interest in our work. We have updated the `tokenizer_config.json` file of InternVL2.5 and InternVL3 to fix this issue. See this [commit](https://huggingface.co/OpenGVLab/InternVL3-14B/commit/4d17b962a04848e4394916b127cdb2cab0dbeb2f) for more details. Thanks...

FireRedASR-LLM主干是Qwen2-7B-Instruct,但是它做inference的时候需要直接输入hidden_state,vllm server好像还不支持这个方式,不知道官方有没有魔改的vllm可供部署