Information-Extraction-Chinese
Information-Extraction-Chinese copied to clipboard
关于vec.txt的生成
您好,首先感谢,您分享的这么好的项目, 有个问题,想请教下:就是vec.txt是如何生成的?是类似于word2vec的词嵌入吗?如果是的话,模型的输入是否是分好的词?来通过用字符周围的字符来表示该字符(类似word2vec训练词向量的机制);
如果是的话,那么vec.txt的训练语料大概有多少呢?我想训练下基于医疗方面的vec.txt,
vec.txt是用中文wikipedia语料,用word2vec训练出的词嵌入向量。
那么输入的是词还是句子,可以提供下code参考下吗?谢谢
https://rare-technologies.com/word2vec-tutorial/
@crownpku 请教下,你用什么标注工具来做语料标注呢?如果手工整理,工作量实在太大了