heLlo ,非常棒的工作 有些问题想请教下
1.COT的强化 是否指在通过在模型输入和输出格式在SFT中训练体现? 2. 类似之前autoweb WEBL的强化学习后训练后续会有这块工作分享吗? 3. 用PRM-PPO是否后续GUI AGENT或者VLM LLM的唯一途径? 4. 会开源数据集 和PT的训练细节吗?
hi感谢提问,
- 是的,我们对训练数据进行了CoT强化,其大致的格式如模型输入输出所示。
- 我们正在积极地探索这方面的内容,后续会以论文或开源的方式和大家分享。华宁一起探讨
- PRM-PPO在实践上说是有效的途径,您指的唯一是?
- 关于数据集,其版权在智谱AI。Pretrain和ft训练方式和CogAgent原论文差异不大,在此基础上进行了细节的调优。关于更新的算法,我们会在后续论文中体现。
感谢您的回复,1.2.3 是近期看了国内外都在做强化学习的后训练,我觉得这个GUI AGENTS同理,所以也稍微看了下REFT、webrl的相关ORM、 PRM的方法, 推理增强可能是非常适合这种产生多trace的任务,想请教下目前这个gui agents模型训练的后续提升方式是否就是这种技术路线? 4. 额外想问下 目前glm的、deepmind一些相关的web use\computer use claude,开源的 \showui、 agvius\的demo方案,我都接触了下 我感觉这块实际落地商用可用性还不够,是否还是聚焦于某些场景和选定的UI界面 做优化,最小化任务去落地?咱们有没有联系方式 或者群,另外window上运行有个大小写问题 提了个PR 可以看下
- 我们在进行这方面的尝试,也有一定的成果,将会在合适的时机和大家分享
- 我们也在积极地探索CogAgent的商业化落地,GLM-PC就是我们在运营的产品,目前在初步内测阶段。您可以去https://cogagent.aminer.cn/home 官网,加入我们的社群;或是通过意见反馈留下您的联系方式和需求,我们会有工作人员来联系您。
- 感谢PR
好的 如果有技术交流群 就太好了 又几个小问题 1.另外在prompt里期望模型输出的format 在训练数据时候每一种format的数据量比例是均匀的吗? 2.BOX千分制是因为模型小数点理解不好吗? 3.如果直接做下游task 效果不好是因为数据量问题吗 能否给个参考的比例
- 官网的右上角有技术交流群
- 按比例均匀采样,是我们实验得到的
- 因为这样更节省tokens
- 请问您是用于什么task吗,可以附上尽可能详细的例子吗?