jiangxinyang227

Results 40 comments of jiangxinyang227

> @haoransh When you pass **inputs** as an argument to function **positional_encoding**, yes, the **inputs** consists of padding info. However, inside of **positional_encoding**, this code just extract the shape info...

以Bi-LSTM+Attention为例,你可以将训练模型中注释的代码取消注释就会保存模型了,然后在项目的根路径下创建model/Bi-LSTM的文件夹路径,代码中提供了两种保存模型的方法,tf.train.Saver保存为checkpoint,另一种tf.saved_model.builder保存为pb文件。

不客气,transformer论文中的实现方法确实是相加,而且位置向量是用sin,cos分段函数生成的,这个在代码中有实现,Transformer类中的_positionEmbedding方法实现的就是这个,Transformer中注释的代码就是实现这个位置向量和wordEmbedding相加的。其实这个位置向量有很多可以实现的方法,作者也没有说论文中的方法是最佳实现,在IMDB这个任务中,我尝试的是固定的one-hot位置向量反而效果更好。所以这个位置向量有很多可以做的工作。

已修改,因为这是之前用的变量名,在兼容多分类之后这个变量名就被改了

4也是类别,只是更细粒度的,是从0-9,共十分类别,在这里没用上

好的,有时间去看下,谢谢

你好,已经在博客里面回复你了

是的,你说的对,写的时候没注意,谢谢指出错误

不好意思,这是公司内部数据,不敢放出来

> 您好,能否提供一下预测数据的数据结构呢? 预测数据就是学生历史做题信息,例如现在训练集包含三个知识点,数字化为[0, 1, 2],现在学生做了5道题,这5道题知识所属知识点和做题结果, 知识点序列:2,1,0,2,2 做题结果序列:0, 1, 1, 1, 0 同样的将每道题编码成向量,结果就是这样的二维数据输入到模型中[[], [], [], [], []],取最后时刻的隐层向量作为各知识点的掌握度。