Cheng Rui

Results 14 issues of Cheng Rui

1.COT的强化 是否指在通过在模型输入和输出格式在SFT中训练体现? 2. 类似之前autoweb WEBL的强化学习后训练后续会有这块工作分享吗? 3. 用PRM-PPO是否后续GUI AGENT或者VLM LLM的唯一途径? 4. 会开源数据集 和PT的训练细节吗?

感谢提供的项目idea 1.if only text input , which is equivalent to Mindsearch? 2.如果VLM的能力经过微调或者是更大的vlm是否可能替代掉ground dino? 有没有考虑提供分离大模型服务的后端API? 3.搜索模型使用的是Internlm2原因是否只是因为这个模型经过相关数据训练, 这个几个步骤有没有可能可以合并为一个VLM进行,目前因为模型能力受限。所以做的过渡组合?

Hello, I'm testing the speed of 100 tokens on a single H20. The original qwen3 has 200TPS during sglang inference, while the draft model eagle3 only has 130TPS. What's the...