PRGC icon indicating copy to clipboard operation
PRGC copied to clipboard

Chinese field

Open xddd-ys opened this issue 1 year ago • 23 comments

Does the model support Chinese triplet extraction? thanks for your reply

xddd-ys avatar May 09 '23 13:05 xddd-ys

你好,我没再继续用这个模型了

| | xuxdong108 | | @.*** | 签名由网易邮箱大师定制 On 6/12/2023 @.***> wrote:

我也好奇 请问你解决了吗

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

xddd-ys avatar Jun 12 '23 09:06 xddd-ys

目前就传统的BERT+BiLSTM模型做的

| | xuxdong108 | | @.*** | 签名由网易邮箱大师定制 On 6/12/2023 @.***> wrote:

你好,我没再继续用这个模型了

| | xuxdong108 | | @.*** | 签名由网易邮箱大师定制 On 6/12/2023 @.***> wrote:

我也好奇 请问你解决了吗

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

你好 我想请问您现在使用的是什么模型来处理中文的训练集做关系抽取呢

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

xddd-ys avatar Jun 12 '23 09:06 xddd-ys

when I change the data into chinese, I found its effect perform badly

githubgtl avatar Aug 22 '23 10:08 githubgtl

when I change the data into chinese, I found its effect perform badly

我也发现了

khazic avatar Aug 23 '23 04:08 khazic

when I change the data into chinese, I found its effect perform badly

我也发现了

你解决了嘛

githubgtl avatar Aug 29 '23 07:08 githubgtl

我改了源代码 你说的差是有多差 我目前测出来 中文的f1在71左右

khazic avatar Aug 29 '23 08:08 khazic

只有2.1

githubgtl avatar Aug 29 '23 08:08 githubgtl

我就修改了它的模型换成了bert-wwm,然后把数据集换成中文的

githubgtl avatar Aug 29 '23 08:08 githubgtl

我改了源代码 你说的差是有多差 我目前测出来 中文的f1在71左右

可以给我看看你改的源码嘛,

githubgtl avatar Aug 29 '23 08:08 githubgtl

我也在用这个模型做中文的关系抽取,我们三个能交流一下吗?

258508 avatar Aug 29 '23 13:08 258508

我也在用这个模型做中文的关系抽取,我们三个能交流一下吗?

可以啊 我的qq是2813397632

githubgtl avatar Aug 29 '23 13:08 githubgtl

可以

khazic avatar Aug 30 '23 06:08 khazic

可 我加您还是您加我,我qq在上面

githubgtl avatar Aug 30 '23 06:08 githubgtl

我的qq是2585081745

258508 avatar Aug 30 '23 13:08 258508

我改了源代码 你说的差是有多差 我目前测出来 中文的f1在71左右

你好,想搞中文的要怎么整,只要换个预训练吗,我换个直接爆显存了

zjutnlper avatar Apr 08 '24 14:04 zjutnlper

我改了源代码 你说的差是有多差 我目前测出来 中文的f1在71左右

可以给我看看你改的源码嘛,

你好,想用自己的中文数据集应该怎么改源码呢,我就换了个预训练,效果特别差

zjutnlper avatar Apr 09 '24 05:04 zjutnlper

主要是tokenizer部分

khazic avatar Apr 09 '24 05:04 khazic

主要是tokenizer部分

那块怎么了吗,源码就调用了huggingface那个接口,没看出啥不合理,请指教大佬

zjutnlper avatar Apr 09 '24 06:04 zjutnlper

太久远了 记不大清楚了 英文的token跟中文的token不同 你直接换模型 bert-large肯定适配不了很好的chinese啊 每个模型有他自己的vocabulary

khazic avatar Apr 09 '24 06:04 khazic

太久远了 记不大清楚了 英文的token跟中文的token不同 你直接换模型 bert-large肯定适配不了很好的chinese啊 每个模型有他自己的vocabulary

我是换了预训练模型的,bert-Chinese这个,效果确实不好

zjutnlper avatar Apr 09 '24 06:04 zjutnlper

我的意思 不是模型不好 是每个模型的tokenizer就不一样 他的源码是英文的编码逻辑 你现在换中文的 肯定不行的 你得把tokenizer换成是中文的那种分词逻辑才行的

khazic avatar Apr 09 '24 06:04 khazic

我的意思 不是模型不好 是每个模型的tokenizer就不一样 他的源码是英文的编码逻辑 你现在换中文的 肯定不行的 你得把tokenizer换成是中文的那种分词逻辑才行的

大佬,那该怎么改,无经验

zjutnlper avatar Apr 09 '24 06:04 zjutnlper

我的中文训练集是800条,处理完送入训练变成1221条了,这是为什么?

258508 avatar May 17 '24 07:05 258508