auto_coding icon indicating copy to clipboard operation
auto_coding copied to clipboard

代码生成和代码补全

Open leepengcheng opened this issue 4 years ago • 1 comments

楼主你好,我最近也在研究代码补全.但是发现大部分都是代码生成,二者还是有一些区别的 例如

  • 代码生成

用户输入完整的单词import tensorflow,然后生成后面的as tf EXP:generate("import tensorflow") > import tensorflow as tf

  • 代码补全

用户输入 import ten,期望模型输出import tensorflow as tf EXP:completion("import ten") > import tensorflow as tf

实际上 generate("import ten") > import ten_pence(0.01),会生成很多无意义的代码 我偶尔看到有人提到过可以在BPE分词前将 tensorflow这种词打断,但是自己实践后发现效果依然不佳. 想请教下有什么好的方法可以解决这种情况吗? 期待你的回复

leepengcheng avatar Sep 30 '21 06:09 leepengcheng

其实可以考虑character-level的训练,不过那将改变vocabulary,可能要设计到预训练。如果条件允许的话,你可以试着预训练一个gpt2在大量代码数据上。

wangcongcong123 avatar Dec 14 '21 14:12 wangcongcong123