AgentTuning icon indicating copy to clipboard operation
AgentTuning copied to clipboard

通用数据如何筛选

Open LuoKaiGSW opened this issue 1 year ago • 7 comments

想问一下,通用数据ShareGPT_Vicuna_unfiltered有9w条,你们是如何筛选到5w条的?能提供一下脚本吗

LuoKaiGSW avatar Nov 06 '23 13:11 LuoKaiGSW

他们论文中是4:1,3.5和4的数据一起调的,ShareGPT_Vicuna_unfiltered里面并没有提示哪个是3.5和4。ShareGPT_Vicuna_unfiltered中有许多没法直接用的数据,比如开头一定要是human的才行,对话多长等等问题。 这个微调的数据量是不是有点少了呢,5W条??

Dhaizei avatar Nov 06 '23 16:11 Dhaizei

他们论文中是4:1,3.5和4的数据一起调的,ShareGPT_Vicuna_unfiltered里面并没有提示哪个是3.5和4。ShareGPT_Vicuna_unfiltered中有许多没法直接用的数据,比如开头一定要是human的才行,对话多长等等问题。 这个微调的数据量是不是有点少了呢,5W条??

看论文,作者应该是用的这个数据集,但是我看了这个数据也有9万条,不过是split以后的结果,如果不split的话应该是5万条左右,所以这种条数是指的没有split的数量是吗?

LuoKaiGSW avatar Nov 07 '23 03:11 LuoKaiGSW

作者说内部版本对ShareGPT的来源标签,参考 #10 ,这个标签应该是没有公开

Reason-Wang avatar Nov 07 '23 09:11 Reason-Wang

你们试了作者开源的agentlm了吗,效果怎么样??

Dhaizei avatar Nov 13 '23 05:11 Dhaizei

你们试了作者开源的agentlm了吗,效果怎么样??

我用论文中提到的构造数据的方式训了一版模型,测试了一下,效果不太稳定

LuoKaiGSW avatar Nov 24 '23 02:11 LuoKaiGSW

你的效果不太稳定是多少呢?在HH方面怎么样?我是自己训练了,也试用了他们的agentlm-13b

Dhaizei avatar Nov 24 '23 08:11 Dhaizei

请问有什么筛选这个数据的思路吗?

SHITIANYU-hue avatar Jan 24 '24 20:01 SHITIANYU-hue