ZeyuTeng96 comments

Results 28 comments of


ZeyuTeng96

关于文本摘要开源例子的问题

谢谢您，请问还有其他模型做文本摘要的例子嘛？还有就是有考虑把您给我的那个链接的例子放到[text_summarization](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_summarization)下吗？或者这个目录下后续再提供一些中文的生成式文本摘要例子？有这些后续的打算吗？非常谢谢您

谢谢您，还请问您一下，unimo-text-1.0-large的vocab-size为何会小于unimo-text-1.0呢？是在做预训练任务的时候所见到的数据量少于unimo-text-1.0？还请您指教下。模型参数链接： https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/transformers/unimo/modeling.py > 后续这些会在考虑之中哈，有其他的进展会及时同步给你，敬请期待

请问用plato-2跑中文模型，loss一般下降到多少？

> 您好，我用plato-2跑中文模型（目前跑的是第一阶段），我感觉我的学习率是不是设置小了，我设置的为1e-5，跑了1.8M个步长（batch_size=32），loss下降到2.66，尽管loss一直在下降，但是我觉得太慢了。我是不是应该把学习率设置大一点，5e-4或者2e-5。另外，我想咨询一下第一阶段的loss一般下降到多少左右就可以了？ > > 非常期望得到回复~ 大佬，能否指教一下如何将英文的plato-2模型适用于中文的多轮对话任务？

请问用plato-2跑中文模型，loss一般下降到多少？

> > > > 你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的[EVA2.0](https://github.com/thu-coai/EVA) 请问百度开源的12层plato预训练模型在哪里下载呢，只看到6层的plato-mini.。感觉这个模型有点小。所以，我才想尝试用大一点的plato模型，然后就来这里看plato-2。发现并没有开源中文版本，但是看到讨论好多人都将英文版本转换成中文版本了。

请问用plato-2跑中文模型，loss一般下降到多少？

> > > > > > > > > > > > > 你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的[EVA2.0](https://github.com/thu-coai/EVA) > > > > > > 请问百度开源的12层plato预训练模型在哪里下载呢，只看到6层的plato-mini.。感觉这个模型有点小。所以，我才想尝试用大一点的plato模型，然后就来这里看plato-2。发现并没有开源中文版本，但是看到讨论好多人都将英文版本转换成中文版本了。 > > ![image](https://user-images.githubusercontent.com/32251546/178396458-4bdccd4f-a382-434f-b39b-4c0da3c2fde0.png) > > # 大规模数据预训练模型 >...

请问用plato-2跑中文模型，loss一般下降到多少？

> > > > > > > > > > > > > > > > > > > > > 你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的[EVA2.0](https://github.com/thu-coai/EVA) > > > > > > >...

ValueError: Attempting to unscale FP16 gradients.

> 因为 amp 要求可训练参数是`torch.float32`类型。lora模块的参数是`torch.float32`类型，但是`modules_to_save='embed_tokens,lm_head'`中的参数在`from_pretrained`时初始化为`torch.float16`，又同时参与amp更新梯度，所以会报错。解决方案： 1. 对于llama模型可以手动转换`embed_tokens`和`lm_head`层为`torch.float32` 2. 对于任意模型，可以遍历参数，把`requires_grad`的参数全都手动设为`torch.float32` > > ```python > model.print_trainable_parameters() > # monkey patch > logger.info(f"model.modules_to_save: {model.modules_to_save}") > trainable_not_float32 = [name for name, param in model.named_parameters()...

ZeyuTeng96

关于文本摘要开源例子的问题

关于文本摘要开源例子的问题

请问用plato-2跑中文模型，loss一般下降到多少？

请问用plato-2跑中文模型，loss一般下降到多少？

请问用plato-2跑中文模型，loss一般下降到多少？

请问用plato-2跑中文模型，loss一般下降到多少？

ValueError: Attempting to unscale FP16 gradients.

question about 'hidden' gate method for mergekit-moe

出现如下warning: tried to get lr value before scheduler/optimizer started stepping, returning lr=0

出现如下warning: tried to get lr value before scheduler/optimizer started stepping, returning lr=0