Xiaonan Li
Xiaonan Li
可以的,只要输出格式和那些数据集的load格式相同就可以了
原始的字序列,这个是很久以前加的一个选项了,好像没啥用,flat也没用这个
> > 原始的字序列,这个是很久以前加的一个选项了,好像没啥用,flat也没用这个 > > 感谢您的回复,冒昧再问一句,这个字序列的输入shape是什么呀? > 不胜感激。 应该是batch * seq_len
> from fastNLP.modules.utils import _get_file_name_base_on_postfix > from fastNLP.embeddings.bert_embedding import _WordBertModel > 我安装的fastNLP中并没有这两个函数,请问怎么解决呢 先试试更新到最新版本吧
不好意思,我忘记这个细节了。原本的weibo数据集中是有个分词信息的,我为了使得它的格式就预处理了一份和conll格式一样的,没分词信息的文件(就是把分词标号那一列删掉),可以加我微信18158037912,我把那个预处理后的文件给你
> > 原始数据集是哪一个文件 > > 原始数据集是叫 WeiboNER ,可以在链接https://github.com/hltcoe/golden-horse/tree/master/data 中下载() 感谢老哥帮忙回复
可以试试梯度累计
> > 补充一下,我这边利用V0版本的FLAT,即不用BERT的版本是可以正常训练的,但是利用V1版本的FLAT,即使用BERT后,显存会爆 > > 遇到了一样的问题,不过我用的是自己的数据集,有解决方法了吗? 可以试试把训练集的长句分为多个短句
Thank you for response! yes, it leads to an error, I find your script will read the "/home/xnli/.conda/lib/python3.7/site-packages/numpy/core/_multiarray_umath.cpython-37m-x86_64-linux-gnu.so" in numpy file by utf-8, but it is binary, so it leads...