PRGC icon indicating copy to clipboard operation
PRGC copied to clipboard

求助中文

Open zjutnlper opened this issue 10 months ago • 6 comments

怎么使用中文数据集,我把预训练换成中文的bert,但训练的时候batch_size=1都会爆显存

zjutnlper avatar Apr 08 '24 14:04 zjutnlper

self.train_batch_size = 1 if 'WebNLG' in corpus_type else 4

要改后面那个数字,前面的数字只能修改WebNLG的batchsize

beiyaoovo avatar Apr 09 '24 16:04 beiyaoovo

self.train_batch_size = 1 if 'WebNLG' in corpus_type else 4

要改后面那个数字,前面的数字只能修改WebNLG的batchsize

你好,请问中文数据集这块,换个预训练就就可以了吗,那个batch我解决了,但实际训练的时候非常差效果。还有我设置100个epoch,他却20个就停止了。

zjutnlper avatar Apr 11 '24 13:04 zjutnlper

self.train_batch_size = 1 if 'WebNLG' in corpus_type else 4 要改后面那个数字,前面的数字只能修改WebNLG的batchsize

你好,请问中文数据集这块,换个预训练就就可以了吗,那个batch我解决了,但实际训练的时候非常差效果。还有我设置100个epoch,他却20个就停止了。

你好,请问你解决中文训练的问题了吗,我把BERT换成了中文,但是F1全是0,是跟参数有关吗

linesx avatar Apr 28 '24 16:04 linesx

self.train_batch_size = 1 if 'WebNLG' in corpus_type else 4 要改后面那个数字,前面的数字只能修改WebNLG的batchsize

你好,请问中文数据集这块,换个预训练就就可以了吗,那个batch我解决了,但实际训练的时候非常差效果。还有我设置100个epoch,他却20个就停止了。

你好,请问你解决中文训练的问题了吗,我把BERT换成了中文,但是F1全是0,是跟参数有关吗

你好,具体我也不清楚,英语分词和中文分词逻辑不太一样,我训练出来的效果很差

zjutnlper avatar Apr 29 '24 03:04 zjutnlper

我800条训练集,处理完后运行起来显示1200多条,这是为什么?

258508 avatar May 24 '24 12:05 258508

中文的分词最好按他英文的格式分,text字段中,一个字当成一个单词,每个字中间隔个空格,然后把bert换个中文适配的,我用的是bert-base-chinese,就可以了。

Theadmaster avatar Jun 05 '24 05:06 Theadmaster