acl2025-diverse-cot
acl2025-diverse-cot copied to clipboard
Code for the 2025 ACL publication "Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs"
Hi @HaritzPuerto 🤗 I'm Niels and work as part of the open-source team at Hugging Face. I discovered your work through Hugging Face's daily papers as yours got featured: https://huggingface.co/papers/2407.03181....
本项目拟对当前Diverse Chain-of-Thought (DCoT) 推理框架进行两项创新: 1. 【动态CoT数量自适应】 - 现有代码支持通过参数`--min_cots`和`--max_cots`控制每个问题生成的CoT数量,实际训练/推理时通常为固定值。 - 创新方向:开发一个动态机制,根据问题复杂度、模型置信度或历史表现,自动决定每个样本生成的CoT数量。 - 设计思路:可引入问题难度预测模块、置信度阈值、或通过预先运行一次推理获得动态调整建议。 - 目标:提升资源利用率和模型推理效果。 2. 【CoT质量评估与过滤】 - 现有DCoT仅对CoT多样性进行训练和量化,但缺乏自动化的CoT质量筛选和排序机制。 - 创新方向:实现对每条推理链的质量打分与过滤,保留高质量CoT用于最终答案融合。 - 设计思路:可结合启发式规则(如长度、逻辑连贯、与最终答案一致性)、或训练判别模型进行评估。 - 目标:提升模型推理准确率,减少无效或低质量推理链对最终结果的干扰。 【技术建议】 - 重点改动点:推理与评估流程(evaluation.py等)、Prompt构造与结果处理(src/data_processors.py)、输出格式(README/说明)等。 - 可参考现有命令行参数设计,并扩展为自适应和质量评估相关接口。 -...