CogAgent heLlo ,非常棒的工作有些问题想请教下

1.COT的强化是否指在通过在模型输入和输出格式在SFT中训练体现？ 2. 类似之前autoweb WEBL的强化学习后训练后续会有这块工作分享吗？ 3. 用PRM-PPO是否后续GUI AGENT或者VLM LLM的唯一途径？ 4. 会开源数据集和PT的训练细节吗？

Dec 26 '24 03:12 positive666

hi感谢提问，

是的，我们对训练数据进行了CoT强化，其大致的格式如模型输入输出所示。
我们正在积极地探索这方面的内容，后续会以论文或开源的方式和大家分享。华宁一起探讨
PRM-PPO在实践上说是有效的途径，您指的唯一是？
关于数据集，其版权在智谱AI。Pretrain和ft训练方式和CogAgent原论文差异不大，在此基础上进行了细节的调优。关于更新的算法，我们会在后续论文中体现。

Dec 26 '24 06:12 wenyihong

感谢您的回复，1.2.3 是近期看了国内外都在做强化学习的后训练，我觉得这个GUI AGENTS同理，所以也稍微看了下REFT、webrl的相关ORM、 PRM的方法，推理增强可能是非常适合这种产生多trace的任务，想请教下目前这个gui agents模型训练的后续提升方式是否就是这种技术路线？ 4. 额外想问下目前glm的、deepmind一些相关的web use\computer use claude，开源的 \showui、 agvius\的demo方案，我都接触了下我感觉这块实际落地商用可用性还不够，是否还是聚焦于某些场景和选定的UI界面做优化，最小化任务去落地？咱们有没有联系方式或者群，另外window上运行有个大小写问题提了个PR 可以看下

Dec 26 '24 07:12 positive666

我们在进行这方面的尝试，也有一定的成果，将会在合适的时机和大家分享
我们也在积极地探索CogAgent的商业化落地，GLM-PC就是我们在运营的产品，目前在初步内测阶段。您可以去https://cogagent.aminer.cn/home 官网，加入我们的社群；或是通过意见反馈留下您的联系方式和需求，我们会有工作人员来联系您。
感谢PR

Dec 28 '24 05:12 wenyihong

好的如果有技术交流群就太好了又几个小问题 1.另外在prompt里期望模型输出的format 在训练数据时候每一种format的数据量比例是均匀的吗？ 2.BOX千分制是因为模型小数点理解不好吗？ 3.如果直接做下游task 效果不好是因为数据量问题吗能否给个参考的比例

Dec 30 '24 01:12 positive666

官网的右上角有技术交流群
按比例均匀采样，是我们实验得到的
因为这样更节省tokens
请问您是用于什么task吗，可以附上尽可能详细的例子吗？

Jan 03 '25 03:01 wenyihong

heLlo ,非常棒的工作 有些问题想请教下

heLlo ,非常棒的工作有些问题想请教下