CogVLM 無法複現飛書上的示例

無法複現飛書上的示例

Open d223302 opened this issue 1 year ago • 1 comments

Cuda==11.8 transformers==4.36.2

@zRzRzRzRzRzRzR

飛書上使用 cogagent的示例: I'm looking for guidance on how to search the CogVLM arxiv paper 無法複現。

我嘗試使用 cogagent-chat 模型執行此任務。然而，此模型並不支援多圖多輪對話。不知道要如何使用此模型完成示例中的任務？如果只能使用單輪對話，要如何將過去的歷史action紀錄提供給模型？

另外，cogagent-chat 的訓練資料是什麼？這個模型能夠執行的action 除了 type / click 以外還有哪些？

期待有一個能夠執行GUI agent 任務的模型，如同飛書上的示例

Jul 29 '24 11:07 d223302

感覺效果不是很好，不知道是我用的不對還是怎麽的

Dec 10 '24 02:12 MachineDora