VariationalTemplateMachine icon indicating copy to clipboard operation
VariationalTemplateMachine copied to clipboard

数据集拆分的预处理代码能分享一下吗?

Open ft3020997 opened this issue 3 years ago • 1 comments

你好,看了VTM的论文,对这项技术很感兴趣,想试算一下paper的数据集,但是在代码仓里没找到spnlg和wiki的训练(验证)数据集预处理代码。

ft3020997 avatar Apr 16 '21 09:04 ft3020997

你好,看了VTM的论文,对这项技术很感兴趣,想试算一下paper的数据集,但是在代码仓里没找到spnlg和wiki的训练(验证)数据集预处理代码。

你好!感谢关注!有关数据集拆分,我最原始的代码找不到了:(,我的构造方法是按照8:1:1的比例来分paired train/valid/test的,大致思路是通过 random.sample(total_sample_num, int(0.8*total_sample_num)) 确定train,剩下给valid和test,valid/test再平分得到的。数据在google drive的那个链接里。

ReneeYe avatar Apr 21 '21 09:04 ReneeYe