zh-NER-TF 请问可以分享您的预训练embedding吗？

首先感谢您提供的代码，我使用了随机初始化embedding的方法来训练了我的模型，但是效果并不理想，希望可以得到您但是说使用的预训练enbedding，十分感谢。

Jul 09 '18 07:07 HeYilong0316

Hi, 你是指这个数据集的预训练embedding？这个我曾经用随手设的参数预训练过，但是相比于随机初始化，只是收敛加快了，效果并没有显著提升。如果需要预训练的话，建议在原本的语料基础上再多加一些新闻语料进行预训练。

Jul 10 '18 02:07 Determined22

@Determined22 说词向量的随机初始化，和预训练的词向量相比较没有显著提升。那是否说明在整个LSTM+CRF过程，也学习了词向量了？所以随机初始化与否在最终结果性能没有显著提升？可以这样理解？

Jul 10 '18 07:07 MrRace

Hi @MrRace , 如果是随机初始化那一定是要更新embedding的，它本身就是网络参数的一部分。至于使用预训练embedding做初始化时效果没有提升，这个原因是多方面的，可能是预训练embedding本身质量一般。既然收敛加快了说明还是有一定的用处，论文里面一般都会用大型语料做预训练。

Aug 01 '18 08:08 Determined22

感觉现在的代码是基于字标注的，主要使用的是区别特征，从这个层面上来讲随机的效果比预训练的好点（从我的使用来看），如果换成基于词标注，有可能预训练的embedding可能会比随机好点。

Dec 06 '18 11:12 hipparic

大神，有i一个严峻的问题，就是我们真正在使用标注语句训练的时候，其实并没有用到embedding,因为在 run_one_epoch(self, sess, train, dev, tag2label, epoch, saver)中并没有embedding，而且在feed_dict, _ = self.get_feed_dict(seqs, labels, self.lr, self.dropout_keep_prob)中喂进去的数据中没有的数据是[148, 194, 153, 177, 323, 2268, 392, 330, 8, 99, 1]这样的形式，并不是向量形式。

Jan 06 '19 09:01 shenliyan01

感觉现在的代码是基于字标注的，主要使用的是区别特征，从这个层面上来讲随机的效果比预训练的好点（从我的使用来看），如果换成基于词标注，有可能预训练的embedding可能会比随机好点。

你好，如何使用预训练的词向量进行训练呢？

Oct 15 '19 12:10 mingxixixi

zh-NER-TF zh-NER-TF copied to clipboard

请问可以分享您的预训练embedding吗？

zh-NER-TF
zh-NER-TF copied to clipboard