pokerc

Results 1 issues of pokerc

你好,看了最新的提交,支持了dpo训练。但是从代码来看,似乎在对偏好数据集的处理时,并没有使用模型对应的chat template。从搜索到的资料来看,似乎使用与不使用的情况都存在。想请问下有试验过在chat模型上两种方式的差异吗?