auto_coding 代码生成和代码补全

代码生成和代码补全

Open leepengcheng opened this issue 4 years ago • 1 comments

楼主你好,我最近也在研究代码补全.但是发现大部分都是代码生成,二者还是有一些区别的例如

代码生成

用户输入完整的单词import tensorflow,然后生成后面的as tf EXP:generate("import tensorflow") > import tensorflow as tf

代码补全

用户输入 import ten,期望模型输出import tensorflow as tf EXP:completion("import ten") > import tensorflow as tf

实际上 generate("import ten") > import ten_pence(0.01),会生成很多无意义的代码我偶尔看到有人提到过可以在BPE分词前将 tensorflow这种词打断,但是自己实践后发现效果依然不佳. 想请教下有什么好的方法可以解决这种情况吗? 期待你的回复

Sep 30 '21 06:09 leepengcheng

其实可以考虑character-level的训练，不过那将改变vocabulary，可能要设计到预训练。如果条件允许的话，你可以试着预训练一个gpt2在大量代码数据上。

Dec 14 '21 14:12 wangcongcong123

auto_coding auto_coding copied to clipboard

代码生成和代码补全

auto_coding
auto_coding copied to clipboard