苏剑林(Jianlin Su) comments

Results 391 comments of


                                            苏剑林(Jianlin Su)

实验环境与训练速度

> 3090 A100 采取了新的架构，支持并不好，但是也有补丁方案。参考这两篇文章： https://blog.csdn.net/qq_39543404/article/details/112171851 https://blog.csdn.net/wu496963386/article/details/109583045 3090、A100最佳的tf版本就是1.15，nvidia自己推荐的。 https://developer.nvidia.com/zh-cn/blog/accelerating-tensorflow-on-a100-gpus/

苏神有训练好的权重不

我就知道有人会提这个需求...已经分享了，请刷新readme.md

训练过程中出现OOM

这我怎么知道你的环境咋回事。。。我用24G的3090，训练很正常。

Does evaluate() always return 0 result?

代码没错，我算的是f1不是acc。另外对齐环境，

config.json中为什么有两个hidden_act?

因为mT5就是有两个hidden_act。可以认真看看博客介绍。

请问需要多大显存的卡？

目测small版8G都够了吧，base版估计11G也够了

本TF版本的输入 `token_ids, segment_ids` 和原版的模型输入 `input_ids, token_type_ids` 是否一样？

具体的差别是什么？把部分同位置的数值复制粘贴一下？我没有跑过pytorch版，但是我将用transformers的tf版加载对比过，bert4keras版的输出跟它基本一致，所以应该是没有错的。另外，实测的聊天效果也没有问题。

本TF版本的输入 `token_ids, segment_ids` 和原版的模型输入 `input_ids, token_type_ids` 是否一样？

> > 另外，实测的聊天效果也没有问题。 > > 请问可以参考一下您的聊天测试代码吗？代码全在这里了呀 https://github.com/bojone/CDial-GPT-tf/blob/master/example.py ，`chatbot.response`就可以模拟聊天。

本TF版本的输入 `token_ids, segment_ids` 和原版的模型输入 `input_ids, token_type_ids` 是否一样？

> 我在原项目该行 https://github.com/thu-coai/CDial-GPT/blob/master/interact.py#L81 代码下直接插入了如下代码： > > ```shell > tf_input_ids = input_ids.numpy() > tf_token_type_ids = token_type_ids.numpy() > tf_logits = tf_model.predict([tf_input_ids, tf_token_type_ids]) > ``` > > 其中tf_model 是用的本项目中下载的 checkpoint 加载的。 > >...

本TF版本的输入 `token_ids, segment_ids` 和原版的模型输入 `input_ids, token_type_ids` 是否一样？

> 这个pytorch 的模型是直接使用的 transformers 的 pytorch版 OpenAIGPTLMHeadModel https://github.com/thu-coai/CDial-GPT/blob/master/interact.py#L132 ，按道理如果这个bert4keras版和transformers的tf版结果一致，那么 pytorch版也应该一致。 probas和logits的区别。