张哲 Zhangzhe
张哲 Zhangzhe
@SFUMECJF 你好这篇工作是用于标点恢复的,并不适用于分词,你可以在https://github.com/SVAIGBA/WMSeg 学习最新的分词技术
@SFUMECJF 所有的训练都可以由train_1_to_1.py完成,如下文件,你可以从其中的main函数读起,所有的数据处理和training的模型调用、testing的模型调用都可以顺藤摸瓜: 我一般为了吧结果重定向输出到log文件,会使用如下所示的train.sh脚本来启动训练:
Cause this project uses a pretrained Chinese Bert model for punctuation prediction, if you want to try these code on Japanese: 1. First, you need to load a Japnese pretrained...
@xunhanliu 不好意思,很久没有维护了。不过你遇到的这个现象是一种过拟合,你可以认为是模型倾向于所有地方都添加标点,以达到对预测召回率的更强覆盖。 1. 一方面你可以试着增大一下训练的数据量,我在repo中放的训练数据量很少,标点恢复任务本身和bert原始的任务还是有区别的,数据量大一些,模型就没那么容易过拟合了,数据的准备可以参照我的数据的格式。 2. 另一方面,你可以改写一下我的代码中的损失函数,当时没有考虑小数据情况下的过拟合问题,你可以增加一些惩罚项,让模型在准确率上覆盖的更好一些。
您的邮件我已收到,将尽快回复!!
您的邮件我已收到,将尽快回复!!
您的邮件我已收到,将尽快回复!!