DSXiangLi

Results 25 comments of DSXiangLi

@DLPerf Thanks for point this out! Honestly I haven't pay much attention to performance before >< I just took a look at that performance doc, and found there are actually...

@fengxuefx 辛苦发一下你的运行脚本吧

请仔细阅读每个子folder的readme,pretrain_model里面有写需要下载的模型和链接

@ZR5932 https://github.com/DSXiangLi/ChineseNER/blob/main/requirement.txt requirement 是我直接从当前环境导出来的,可以直接装个virtual试一下

@ZR5932 第一个问题我不太确定,可能是你下载的word embedding 是binary format的。如果是glove format试一下把glove_2_wv里面加载词向量的部分KeyedVectors.load_word2vec_format,设置binary=True。word enhance可以看下这篇博客https://www.cnblogs.com/gogoSandy/p/14965711.html

@LinJingOK 是数据生成有问题,giga和bert是两个不同的tokenizer,前者是词粒度,后者是token粒度。bert模型使用的都是bert tokenizer,所以tfrecord文件是bert_train.tfrecord, 其他非bert模型是giga_train.tfrecord, 词表增强文件会是giga_softword.tfrecord之类的

@LinJingOK checkpoint里面会生成对应ckpt文件,可以用tensorboard --logdir ./checkpoint/your_model_path 来查看模型当前训练进展

把你的训练数据放到/data/your_data,目录下,并按照其他目录下的preprocess处理成对应的格式

@Yong988 我也是刚开始写pytorch,之后应该都会用pytorch了,代码正在缓慢迁移,可以先看下这个https://github.com/DSXiangLi/ClassicSolution

@fengxuefx 可能older name写错了,确认下目录里是否有tensorboard相关的文件生成