jiangxinyang227 comments

Results 40 comments of


                                            jiangxinyang227

Question on maskings

> @haoransh When you pass **inputs** as an argument to function **positional_encoding**, yes, the **inputs** consists of padding info. However, inside of **positional_encoding**, this code just extract the shape info...

how to save the models?

以Bi-LSTM+Attention为例，你可以将训练模型中注释的代码取消注释就会保存模型了，然后在项目的根路径下创建model/Bi-LSTM的文件夹路径，代码中提供了两种保存模型的方法，tf.train.Saver保存为checkpoint，另一种tf.saved_model.builder保存为pb文件。

how to save the models?

不客气，transformer论文中的实现方法确实是相加，而且位置向量是用sin，cos分段函数生成的，这个在代码中有实现，Transformer类中的_positionEmbedding方法实现的就是这个，Transformer中注释的代码就是实现这个位置向量和wordEmbedding相加的。其实这个位置向量有很多可以实现的方法，作者也没有说论文中的方法是最佳实现，在IMDB这个任务中，我尝试的是固定的one-hot位置向量反而效果更好。所以这个位置向量有很多可以做的工作。

how to save the models?

已修改，因为这是之前用的变量名，在兼容多分类之后这个变量名就被改了

请问您BERT文件夹下的数据集中每行末尾0,4是什么意思啊？0是类别，4是什么意思

4也是类别，只是更细粒度的，是从0-9，共十分类别，在这里没用上

楼主也可以试试ULMFiT以及ResNet文本分类

好的，有时间去看下，谢谢

关于测试文件的编写还是存在疑问？

你好，已经在博客里面回复你了

发现错误

是的，你说的对，写的时候没注意，谢谢指出错误

预测数据

不好意思，这是公司内部数据，不敢放出来

预测数据

> 您好，能否提供一下预测数据的数据结构呢？预测数据就是学生历史做题信息，例如现在训练集包含三个知识点，数字化为[0, 1, 2]，现在学生做了5道题，这5道题知识所属知识点和做题结果，知识点序列：2，1，0，2，2 做题结果序列：0， 1， 1， 1， 0 同样的将每道题编码成向量，结果就是这样的二维数据输入到模型中[[], [], [], [], []]，取最后时刻的隐层向量作为各知识点的掌握度。