auto_coding
auto_coding copied to clipboard
代码生成和代码补全
楼主你好,我最近也在研究代码补全.但是发现大部分都是代码生成,二者还是有一些区别的 例如
- 代码生成
用户输入完整的单词
import tensorflow,然后生成后面的as tfEXP:generate("import tensorflow")>import tensorflow as tf
- 代码补全
用户输入
import ten,期望模型输出import tensorflow as tfEXP:completion("import ten")>import tensorflow as tf
实际上 generate("import ten") > import ten_pence(0.01),会生成很多无意义的代码
我偶尔看到有人提到过可以在BPE分词前将 tensorflow这种词打断,但是自己实践后发现效果依然不佳.
想请教下有什么好的方法可以解决这种情况吗?
期待你的回复
其实可以考虑character-level的训练,不过那将改变vocabulary,可能要设计到预训练。如果条件允许的话,你可以试着预训练一个gpt2在大量代码数据上。