Text-Summarizer-Pytorch-Chinese icon indicating copy to clipboard operation
Text-Summarizer-Pytorch-Chinese copied to clipboard

您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001

Open DarsonKing opened this issue 3 years ago • 14 comments

就是找不到40001 40002 400xx 这种的vocab,怎么解决呢,是自己生成一个新的词表就行是吗

DarsonKing avatar Sep 02 '21 14:09 DarsonKing

请问是用的链接分享的词表么

LowinLi avatar Sep 05 '21 02:09 LowinLi

请问是用的链接分享的词表么

是的

DarsonKing avatar Sep 07 '21 11:09 DarsonKing

萌新想问一下,这个是对数据预处理的时候,按词频分配的id,然后写入词表是吧。我服务器断一次之后,无论我load以往的哪一个模型,都提示vocab找不到40001-40010之间的id

DarsonKing avatar Sep 07 '21 12:09 DarsonKing

您好,分享的词表是有50000个的

https://github.com/LowinLi/Text-Summarizer-Pytorch-Chinese/blob/master/vocab#L50000

LowinLi avatar Sep 09 '21 06:09 LowinLi

同样出现这个问题,超参vocab_size设置50000,同样也会出现50001、50002等等id找不到

RobotSe7en avatar Sep 10 '21 01:09 RobotSe7en

我仔细看了下ooV的代码,这是遇到未登录词时的正常提示,如果没有报outputids2words中的error就是没有报错

Sunjc234 avatar Dec 08 '21 03:12 Sunjc234

我也遇到相同的问题,有哪位大佬解决了可以提点一下吗

CSgaoan avatar Jul 26 '23 05:07 CSgaoan

就是找不到40001 40002 400xx 这种的vocab,怎么解决呢,是自己生成一个新的词表就行是吗

请问一下,您解决了该问题没有

CSgaoan avatar Jul 26 '23 05:07 CSgaoan

我记得是config文件里面,vocab大小的问题,你改一下那个试试 ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2023年07月26日 13:27 | | 收件人 | LowinLi/Text-Summarizer-Pytorch-Chinese @.> | | 抄送人 | Sunjc234 @.>, Comment @.> | | 主题 | Re: [LowinLi/Text-Summarizer-Pytorch-Chinese] 您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001 (#28) |

我也遇到相同的问题,有哪位大佬解决了可以提点一下吗

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

Sunjc234 avatar Jul 26 '23 22:07 Sunjc234

我记得是config文件里面,vocab大小的问题,你改一下那个试试 ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2023年07月26日 13:27 | | 收件人 | LowinLi/Text-Summarizer-Pytorch-Chinese @.> | | 抄送人 | Sunjc234 @.>, Comment @.> | | 主题 | Re: [LowinLi/Text-Summarizer-Pytorch-Chinese] 您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001 (#28) | 我也遇到相同的问题,有哪位大佬解决了可以提点一下吗 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

你好,想问一下你训练的时候程序会自动结束吗,我怎么训了四十万次都还没结束,用的是作者原代码里的参数

759658007 avatar Sep 08 '23 01:09 759658007

他的代码没有没有显示mleloss就代表结束了

| | huang4760 | | @.*** |

---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2023年09月08日 09:30 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [LowinLi/Text-Summarizer-Pytorch-Chinese] 您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001 (#28) |

我记得是config文件里面,vocab大小的问题,你改一下那个试试 ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2023年07月26日 13:27 | | 收件人 | LowinLi/Text-Summarizer-Pytorch-Chinese @.> | | 抄送人 | Sunjc234 @.>, Comment @.> | | 主题 | Re: [LowinLi/Text-Summarizer-Pytorch-Chinese] 您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001 (#28) | 我也遇到相同的问题,有哪位大佬解决了可以提点一下吗 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

你好,想问一下你训练的时候程序会自动结束吗,我怎么训了四十万次都还没结束,用的是作者原代码里的参数

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

CSgaoan avatar Sep 08 '23 01:09 CSgaoan

他的代码没有没有显示mleloss就代表结束了 | | huang4760 | | @.*** | ---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2023年09月08日 09:30 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [LowinLi/Text-Summarizer-Pytorch-Chinese] 您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001 (#28) | 我记得是config文件里面,vocab大小的问题,你改一下那个试试 ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2023年07月26日 13:27 | | 收件人 | LowinLi/Text-Summarizer-Pytorch-Chinese @.> | | 抄送人 | Sunjc234 @.>, Comment @.> | | 主题 | Re: [LowinLi/Text-Summarizer-Pytorch-Chinese] 您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001 (#28) | 我也遇到相同的问题,有哪位大佬解决了可以提点一下吗 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.> 你好,想问一下你训练的时候程序会自动结束吗,我怎么训了四十万次都还没结束,用的是作者原代码里的参数 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>

可以请教一下你的config里的那些参数设置吗,我设置的跑了几十万都没结束,感觉太奇怪了

759658007 avatar Sep 08 '23 02:09 759658007

最主要的就是max-iter,这个数值乘batchsize就是你训练集的行数,我记得是209万行

| | huang4760 | | @.*** |

---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2023年09月08日 10:06 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [LowinLi/Text-Summarizer-Pytorch-Chinese] 您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001 (#28) |

他的代码没有没有显示mleloss就代表结束了 | | huang4760 | | @.*** | … ---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2023年09月08日 09:30 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [LowinLi/Text-Summarizer-Pytorch-Chinese] 您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001 (#28) | 我记得是config文件里面,vocab大小的问题,你改一下那个试试 ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2023年07月26日 13:27 | | 收件人 | LowinLi/Text-Summarizer-Pytorch-Chinese @.> | | 抄送人 | Sunjc234 @.>, Comment @.> | | 主题 | Re: [LowinLi/Text-Summarizer-Pytorch-Chinese] 您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001 (#28) | 我也遇到相同的问题,有哪位大佬解决了可以提点一下吗 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.> 你好,想问一下你训练的时候程序会自动结束吗,我怎么训了四十万次都还没结束,用的是作者原代码里的参数 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>

可以请教一下你的config里的那些参数设置吗,我设置的跑了几十万都没结束,感觉太奇怪了

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

CSgaoan avatar Sep 08 '23 02:09 CSgaoan

模型训练不会自动结束的,你需要看loss值,在损失值趋于平稳之后就可以结束训练,你可以加一个可视化的工具来查看损失值曲线 ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2023年09月08日 10:16 | | 收件人 | @.> | | 抄送人 | Sunjc234 @.>, Comment @.> | | 主题 | Re: [LowinLi/Text-Summarizer-Pytorch-Chinese] 您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001 (#28) |

最主要的就是max-iter,这个数值乘batchsize就是你训练集的行数,我记得是209万行

| | huang4760 | | @.*** |

---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2023年09月08日 10:06 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [LowinLi/Text-Summarizer-Pytorch-Chinese] 您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001 (#28) |

他的代码没有没有显示mleloss就代表结束了 | | huang4760 | | @.*** | … ---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2023年09月08日 09:30 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [LowinLi/Text-Summarizer-Pytorch-Chinese] 您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001 (#28) | 我记得是config文件里面,vocab大小的问题,你改一下那个试试 ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2023年07月26日 13:27 | | 收件人 | LowinLi/Text-Summarizer-Pytorch-Chinese @.> | | 抄送人 | Sunjc234 @.>, Comment @.> | | 主题 | Re: [LowinLi/Text-Summarizer-Pytorch-Chinese] 您好,请问load_model无论是eval还是从某个模型重新训练的时候会提示Id not found in vocab: 40001 (#28) | 我也遇到相同的问题,有哪位大佬解决了可以提点一下吗 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.> 你好,想问一下你训练的时候程序会自动结束吗,我怎么训了四十万次都还没结束,用的是作者原代码里的参数 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>

可以请教一下你的config里的那些参数设置吗,我设置的跑了几十万都没结束,感觉太奇怪了

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

Sunjc234 avatar Sep 08 '23 02:09 Sunjc234