Information-Extraction-Chinese icon indicating copy to clipboard operation
Information-Extraction-Chinese copied to clipboard

关于vec.txt的生成

Open weilongheal opened this issue 6 years ago • 4 comments

您好,首先感谢,您分享的这么好的项目, 有个问题,想请教下:就是vec.txt是如何生成的?是类似于word2vec的词嵌入吗?如果是的话,模型的输入是否是分好的词?来通过用字符周围的字符来表示该字符(类似word2vec训练词向量的机制);

如果是的话,那么vec.txt的训练语料大概有多少呢?我想训练下基于医疗方面的vec.txt,

weilongheal avatar Oct 17 '18 07:10 weilongheal

vec.txt是用中文wikipedia语料,用word2vec训练出的词嵌入向量。

crownpku avatar Oct 18 '18 02:10 crownpku

那么输入的是词还是句子,可以提供下code参考下吗?谢谢

weilongheal avatar Oct 18 '18 02:10 weilongheal

https://rare-technologies.com/word2vec-tutorial/

crownpku avatar Oct 18 '18 02:10 crownpku

@crownpku 请教下,你用什么标注工具来做语料标注呢?如果手工整理,工作量实在太大了

forconz avatar Nov 02 '18 15:11 forconz