ZeyuTeng96

Results 28 comments of ZeyuTeng96

谢谢您, 请问还有其他模型做文本摘要的例子嘛?还有就是有考虑把您给我的那个链接的例子放到[text_summarization](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_summarization)下吗?或者这个目录下后续再提供一些中文的生成式文本摘要例子? 有这些后续的打算吗? 非常谢谢您

谢谢您, 还请问您一下,unimo-text-1.0-large的vocab-size为何会小于unimo-text-1.0呢?是在做预训练任务的时候所见到的数据量少于unimo-text-1.0?还请您指教下。 模型参数链接: https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/transformers/unimo/modeling.py > 后续这些会在考虑之中哈,有其他的进展会及时同步给你,敬请期待

> 您好,我用plato-2跑中文模型(目前跑的是第一阶段),我感觉我的学习率是不是设置小了,我设置的为1e-5,跑了1.8M个步长(batch_size=32),loss下降到2.66,尽管loss一直在下降,但是我觉得太慢了。我是不是应该把学习率设置大一点,5e-4或者2e-5。另外,我想咨询一下第一阶段的loss一般下降到多少左右就可以了? > > 非常期望得到回复~ 大佬,能否指教一下如何将英文的plato-2模型适用于中文的多轮对话任务?

> > > > 你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的[EVA2.0](https://github.com/thu-coai/EVA) 请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。

> > > > > > > > > > > > > 你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的[EVA2.0](https://github.com/thu-coai/EVA) > > > > > > 请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。 > > ![image](https://user-images.githubusercontent.com/32251546/178396458-4bdccd4f-a382-434f-b39b-4c0da3c2fde0.png) > > # 大规模数据预训练模型 >...

> > > > > > > > > > > > > > > > > > > > > 你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的[EVA2.0](https://github.com/thu-coai/EVA) > > > > > > >...

> 因为 amp 要求可训练参数是`torch.float32`类型。lora模块的参数是`torch.float32`类型,但是`modules_to_save='embed_tokens,lm_head'`中的参数在`from_pretrained`时初始化为`torch.float16`,又同时参与amp更新梯度,所以会报错。 解决方案: 1. 对于llama模型可以手动转换`embed_tokens`和`lm_head`层为`torch.float32` 2. 对于任意模型,可以遍历参数,把`requires_grad`的参数全都手动设为`torch.float32` > > ```python > model.print_trainable_parameters() > # monkey patch > logger.info(f"model.modules_to_save: {model.modules_to_save}") > trainable_not_float32 = [name for name, param in model.named_parameters()...

Another question we cannot guarantee all experts have similar hidden state result as the base model. How come the base model's hidden states can be used for gate routing?

> > > > 如果把logging_steps改为10以上呢? 10以上是肯定会有的,但是问题是bloom config里设置了"gradient_accumulation_steps": 32,意味着每一步的logging都是经历了32个batch,如果这样的话前几个steps没有学习率的话,多少有点不对劲呢

> > > > 如果把logging_steps改为10以上呢? 有在transformers的issue里面看过类似的,貌似说法是deepspeed config里设置lr、optimizer的问题导致,还有说法是模型之前是bf16,但是现在设置的fp16? issue如下: https://github.com/huggingface/transformers/issues/14531