yujun comments

Results 152 comments of


                                            yujun

安装ppgan时报错，ERROR: Could not build wheels for numba, llvmlite, which is required to install pyproject.toml-based projects

麻烦贴一下报错的信息，看上面的错误主要是这两个库， ![image](https://github.com/PaddlePaddle/PaddleGAN/assets/50394665/ad042475-f212-488d-8211-761593264b57)

RuntimeError when training on multiple GPUs

`accelerator_connector.py:287: LightningDeprecationWarning: Passing `Trainer(accelerator='ddp')` has been deprecated in v1.5 and will be removed in v1.7. Use `Trainer(strategy='ddp')` instead.` I think we shoulde use strategy='ddp'

Does it matter what the license is for the original architecture?

问题过于久远，如果有图像和视频生成的需求，可以使用新的跨模态工具: https://github.com/PaddlePaddle/PaddleMIX/tree/develop

ValueError: The device should not be 'gpu', since PaddlePaddle is not compiled with CUDA

问题过于久远，如果有图像和视频生成的需求，可以使用新的跨模态工具: https://github.com/PaddlePaddle/PaddleMIX/tree/develop

关于GAU单元的问题

我是按照code6实现的这一部分，然后我感觉底下这部分代码就代表了scale offset，只不过是同时计算了 base = torch.einsum("...r,hr->...hr", base, self.weight) + self.bias

关于A = square(relu(qk / seq_len + bias))

你可以改成batch里面的seqlen试试。我之前试过然后发现模型的输出结果不对劲，于是就改成了max length。我在预训练的时候seqlen基本都是512，也就是说模型只见过512这一个长度，而如果做别的短句子的任务时候，可能seqlen为几十或者一百多，模型都没见过，然后效果不知道为啥不咋行

关于A = square(relu(qk / seq_len + bias))

还有我发现我这个预训练的small权重效果不太行，不知道原论文在embedding处用了dropout没，用了layernorm还是scalenorm。最主要的一个疑惑也就是你提出的那个部分，我不太清楚模型的这个细节有没有实现错

关于A = square(relu(qk / seq_len + bias))

改成seqlen的输出： ```python pytorch: 天气预报说今天的天[台+0.2037||的+0.0798||定+0.0446||好+0.0422||以+0.0386]很好，那么我[大+0.1093||的+0.0697||本+0.0629||以+0.0559||一+0.0518]一起去公园玩吧！ ``` 使用max_length的输出： ```python pytorch: 天气预报说今天的天[气+0.9948||空+0.0011||色+0.0007||候+0.0004||势+0.0003]很好，那么我[就+0.4915||们+0.4186||也+0.0753||还+0.0021||都+0.0016]一起去公园玩吧！ ```

关于A = square(relu(qk / seq_len + bias))

原论文是这样实现的，苏神后来改了一下，修改了一下缩放的地方

关于A = square(relu(qk / seq_len + bias))

我也感觉当前实现的效果不太行，因此还是要等官方代码放出来才知道他里面的一些细节到底怎么处理的，比如`A = square(relu(qk / seq_len + bias))`这个部分的代码。