Heihaierr

Results 7 issues of Heihaierr

您好,我正在尝试给GRACE.py加上一些负采样策略,直接使用GCL.losses.DebiasedInfoNCE或GCL.losses.HardnessInfoNCE都会报错,检查后发现是图中80行dim的问题,我将80行修改为81行能够跑通,但是测试f1特别低,为0.2,0.3的样子,请问我修改的是否有问题?以为对于其他负采样,ring,hardmixing的使用有没有更详细的说明文档? ![image](https://user-images.githubusercontent.com/53702282/182026046-a3b44a9e-a914-4a60-aef8-dd3f8db6c39e.png)

欢迎您反馈PaddleNLP使用问题,非常感谢您对PaddleNLP的贡献! 在留下您的问题时,辛苦您同步提供如下信息: - 版本、环境信息 1)PaddleNLP和PaddlePaddle版本:请提供您的PaddleNLP和PaddlePaddle版本号,例如PaddleNLP 2.0.4,PaddlePaddle2.1.1 2)系统环境:请您描述系统类型,例如Linux/Windows/MacOS/,python版本 - 复现信息:如为报错,请给出复现环境、复现步骤

您好,我最近想复现论文中table-5中的负采样对比方法,但是发现加上DCL和HCL结果都异常低(0.3左右)。后来使用PyGCL实现同样有个问题[https://github.com/PyGCL/PyGCL/issues/56](url),请问能否停供一下您复现DCL部分的代码,做下参考。

**Describe the bug** In `fmoe/gates/switch_gate.py` line 45: ` capacity = math.ceil(cap_rate * inp.shape[0])` should be: ` capacity = math.ceil(cap_rate * inp.shape[0] / self.num_expert)` ?

Hi, I'm trying to implement a simpler version of `switch transformer` following your work. But the detail of `switch_gate` is invisible, like `limit_by_capacity`. My implementation has a slight different result...

how to apply balance loss? can u add it to the example 'transformer-xl'?

Hi, I notice there is experiment with `top_n=1` in the paper of `st-moe`. But in `st_moe_pytorch.py`, `assert top_n >= 2, 'must be 2 or more experts'` Can `top_n=1` work in...