Skywork
Skywork copied to clipboard
关于MOCK_GSM8K_TEST question部分的问题
请问,这个原版gsm8k的测试应该是由question和answer拼接起来,但是MOCK_GSM8K_TEST大部分看起来只有answer的部分没有question的部分,这样一起比较算差值好像不是很科学?
检索了一下原版测试集拼接后搜索“? ”有1259/1319个,开源的MOCK_GSM8K_TEST只有379/1415,这个比例感觉相似度比较有限?