Rui Wang IDEA issues

Results 2 issues of


                                            Rui Wang IDEA

关于beam search预测输出，请教一个问题

大概看了一下seq2seq_model.py文件里的beam search方法的代码，有几个疑惑点请作者解答下哈： 1. 对于预测，假设我有一个句子“你好啊”，对于模型的token_id应该是[[CLS], 你, 好, 啊, [SEP], [PAD]]，那对应的segment_id是这样的吗：**[0, 0, 0, 0, 0, 0]**(看了生成token那段代码，发现输入似乎只能这样)，那么预测的第一个字是基于输入文本的[SEP]这个符号来的吗？其实，就是我没有理解预测阶段是从哪个字符开始的哈以及输入形式是怎样的。。。 2. 看到代码这一段，seq2seq_model.py的221行： ``` # 用来保存累计得分 output_scores = torch.zeros(token_ids.shape[0], device=device) for step in range(self.out_max_length): scores = self.forward(token_ids,...

Qwen3-vl-30B-A3B 用megatron backend在加载checkpoint时报错

### System Info ----------Python Info---------- Version : 3.12.3 Compiler : GCC 13.3.0 Build : ('main', 'Feb 4 2025 14:48:35') Arch : ('64bit', 'ELF') ------------Pip Info----------- Version : 25.2 Directory :...

bug