xtuner icon indicating copy to clipboard operation
xtuner copied to clipboard

关于dpo训练时chat template的使用问题

Open pokerc opened this issue 7 months ago • 3 comments

你好,看了最新的提交,支持了dpo训练。但是从代码来看,似乎在对偏好数据集的处理时,并没有使用模型对应的chat template。从搜索到的资料来看,似乎使用与不使用的情况都存在。想请问下有试验过在chat模型上两种方式的差异吗?

pokerc avatar Jul 22 '24 02:07 pokerc