考虑基于项目上下文重建高可读性的反编译代码?

Open clipsheep6 opened this issue 10 months ago • 1 comments

当前的反编译基于文件级，可读性并不是很好，是否可以基于项目的上下文重建高可读性的反编译代码？最新的模型在重建上可能效果也更好

Feb 10 '25 12:02 clipsheep6

目前的llm并不具备项目级代码理解能力（llm翻译一段话很简单，翻译一个章节明显出现遗忘问题），训练和推理开销也是极其高（不考虑优化，attention计算是输入长度的三次方关系），训练项目级重建成本和难度太高。

我们更倾向于单独重构，整合重组：利用好函数自身的信息去重构，再将一个个重构的函数一起送入更强的模型（GPT-o1，Deepseek-R1）去refine。llm4decompile负责做好单个函数，GPT等则擅长从更高层次整合数据

Feb 10 '25 13:02 albertan017