Chenglei Dai (代成雷) comments

Results 4 comments of


                                            Chenglei Dai (代成雷)

关于训练样本数据的疑问

谢谢博士学姐回复！因为这个相关不能人工判断，我打算利用query doc的点击或者点击率来代替。

你好，再问下，代码里self.embeddings = tf.Variable(tf.random_uniform([self.vocabulary_size + 1, self.embedding_size], -1.0, 1.0))是产出词向量的，那么每一个词对应的一个向量表示是不是在loss稳定后输出就是每个词的向量表示，根据这些向量找每个词最相似的词用余弦相似度计算是否可以？目前遇到的问题是迭代中虽然还没完全收敛，但是训练效果还可以，但是如果用这些向量找相似，发现词和词之间关系并不是很强，随机成分还是有很多？先谢谢了！！

关于模型的小疑问

感谢回复！1）的话如果把部分商品过滤掉，那么在模型评估样本时有些商品是一样的，容易out of vocabulary,我在想是不是我训练的太久，训练了25万次迭代造成的，early stopping或者加dropout可以考虑。2）样本结构 q:'clicked_item1, clicked_item2, clicked_item3', d:'new_item1...'这样,点击和不点击的商品作为正负样本。根据我构造的场景数据，实验效果可能是非热门商品上效果不错。 3）你说的这个情况我再试试。谢谢！(也可以email联系:[email protected])

is tile useful?

yes,you are right