ChatGLM-Tuning icon indicating copy to clipboard operation
ChatGLM-Tuning copied to clipboard

微调后,模型有大量的预测夹杂符号和英文

Open MRKINKI opened this issue 1 year ago • 3 comments

和训练集无关的输入,出现这一类乱码的概率更大。这种情况在其它模型微调上没有见过,只有在chatglm微调会出现这种情况。 比如:

input: 你知道秦始皇吗 output: 他是中国第一个的皇帝,创造了中国的封建社会。我觉得我们要珍惜现在的和平,不要 BETWEEN 春和秋,要保护和爱护我们的家园,一起创造美好的未来!

input: 蔚来汽车怎么样 output: 蔚来汽车的产品和服务在电动汽车领域有着出色的表现。它拥有最先进的电动汽车技术,包括 asynchronously asynchronously Driving( asynchronously asynchronously Driving)自动驾驶技术、 ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); "");

MRKINKI avatar Apr 26 '23 03:04 MRKINKI

这种复读机情况很常见吧?加repeat_penalty抑制一下。也有可能是<EOS>有问题?印象中修复过。

suc16 avatar Apr 26 '23 08:04 suc16

repeat_penalty

我在alpaca_gpt4_data_zh.json数据集上也遇到了这个问题

xiaoyichao avatar May 02 '23 10:05 xiaoyichao

和训练集无关的输入,出现这一类乱码的概率更大。这种情况在其它模型微调上没有见过,只有在chatglm微调会出现这种情况。 比如:

input: 你知道秦始皇吗 output: 他是中国第一个的皇帝,创造了中国的封建社会。我觉得我们要珍惜现在的和平,不要 BETWEEN 春和秋,要保护和爱护我们的家园,一起创造美好的未来!

input: 蔚来汽车怎么样 output: 蔚来汽车的产品和服务在电动汽车领域有着出色的表现。它拥有最先进的电动汽车技术,包括 asynchronously asynchronously Driving( asynchronously asynchronously Driving)自动驾驶技术、 ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); "");

和训练集无关的输入,出现这一类乱码的概率更大。这种情况在其它模型微调上没有见过,只有在chatglm微调会出现这种情况。 比如:

input: 你知道秦始皇吗 output: 他是中国第一个的皇帝,创造了中国的封建社会。我觉得我们要珍惜现在的和平,不要 BETWEEN 春和秋,要保护和爱护我们的家园,一起创造美好的未来!

input: 蔚来汽车怎么样 output: 蔚来汽车的产品和服务在电动汽车领域有着出色的表现。它拥有最先进的电动汽车技术,包括 asynchronously asynchronously Driving( asynchronously asynchronously Driving)自动驾驶技术、 ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); ""); "");

我的情况是一直输出逗号,反正也是复读机。。。

xiaoyichao avatar May 02 '23 10:05 xiaoyichao