Chenglei Dai (代成雷)
Chenglei Dai (代成雷)
谢谢博士学姐回复!因为这个相关不能人工判断,我打算利用query doc的点击或者点击率来代替。
你好,再问下,代码里self.embeddings = tf.Variable(tf.random_uniform([self.vocabulary_size + 1, self.embedding_size], -1.0, 1.0))是产出词向量的,那么每一个词对应的一个向量表示是不是在loss稳定后输出就是每个词的向量表示,根据这些向量找每个词最相似的词用余弦相似度计算是否可以?目前遇到的问题是迭代中虽然还没完全收敛,但是训练效果还可以,但是如果用这些向量找相似,发现词和词之间关系并不是很强,随机成分还是有很多?先谢谢了!!
感谢回复!1)的话如果把部分商品过滤掉,那么在模型评估样本时有些商品是一样的,容易out of vocabulary,我在想是不是我训练的太久,训练了25万次迭代造成的,early stopping或者加dropout可以考虑。2)样本结构 q:'clicked_item1, clicked_item2, clicked_item3', d:'new_item1...'这样,点击和不点击的商品作为正负样本。根据我构造的场景数据,实验效果可能是非热门商品上效果不错。 3)你说的这个情况我再试试。 谢谢!(也可以email联系:[email protected])
yes,you are right