CPM-Bee数据格式相关问题
请问如果想要在CPM-Bee模型上同时微调几个不同的子任务,数据格式需要设置成什么样的?谢谢,盼复
只需要把每个子任务处理成相应的格式,然后把所有数据混合起来微调就可以了。
只需要把每个子任务处理成相应的格式,然后把所有数据混合起来微调就可以了。
例如:翻译的任务,处理成这个格式:
{"input": "北京是中国的首都", "prompt": "中翻英", "<ans>": "Beijing is the capital of China"}
我看了一下微调代码,最终送入到模型中的其实是字符串:
<s><root></s><s>input</s><s>北京是中国的首都</s><s>prompt</s><s>中翻英</s><s><ans></s><s>Beijing is the capital of China<pad><pad><pad><pad><pad>
请问我理解的对吗?谢谢,盼复
只需要把每个子任务处理成相应的格式,然后把所有数据混合起来微调就可以了。
例如:翻译的任务,处理成这个格式:
{"input": "北京是中国的首都", "prompt": "中翻英", "<ans>": "Beijing is the capital of China"}我看了一下微调代码,最终送入到模型中的其实是字符串:
<s><root></s><s>input</s><s>北京是中国的首都</s><s>prompt</s><s>中翻英</s><s><ans></s><s>Beijing is the capital of China<pad><pad><pad><pad><pad>请问我理解的对吗?谢谢,盼复
对的
请问为什么要将模型的输入输出设置为JSON格式呢? 当时这样做是有什么考虑吗?或者觉得JSON有什么好处?
请问为什么要将模型的输入输出设置为JSON格式呢? 当时这样做是有什么考虑吗?或者觉得JSON有什么好处?
我们的考虑是减少在大家花在数据处理上的精力,结构化的格式在处理具体的下游任务时也更加方便和可控。另外,如果微调模型的话,也不必拘泥于README中写的几种格式,大家可以自己定义JSON中的键值,只须将输出结果放在<ans>中即可。
請問preprocess_dataset.py 要的 raw data 具體到底是要什麼格式? 我注意到 reformat_data 這個功能並沒有實現。
def reformat_data(data):
"""set your data format"""
return data
我目前有一份簡單的對話資料以 json 格式儲存, 內容如下。要怎麼處理成可以增量微調的格式呢? [ { "input": "你現在扮演一個溫柔禦姐", "question": "我們看一部電影讓你忘掉是非如何?", "ans": "看一部好電影或許可以放鬆心情,解壓減壓喔!" },]
raw_data是自由的,reformat_data的功能是将任意格式的raw_data转换为CPM-Bee格式的数据,这个功能需要您根据raw_data去实现,可以参考tutorials,里面的data_reformat.py实际上就是这里的reformat_data的实现