DeepSeek-Coder icon indicating copy to clipboard operation
DeepSeek-Coder copied to clipboard

请问可以发布更多关于数据清洗的细节吗?

Open Casi11as opened this issue 2 years ago • 7 comments

目前第一步数据清洗是与starcoder相同,想学习了解后面是如何过滤掉低质量代码、语法错误或可读性差的代码的。

谢谢!

Casi11as avatar Nov 03 '23 02:11 Casi11as

之后会有技术报告出来的

guoday avatar Nov 04 '23 02:11 guoday

之后会有技术报告出来的 好的,多谢,会持续关注的

Casi11as avatar Nov 06 '23 02:11 Casi11as

We also are closely paying attention to how to preprocessing code dataset, especially how to handle the dependencies among code file

i-love-doufunao avatar Nov 09 '23 03:11 i-love-doufunao

  • Step 2: Parsing the dependencies of files within the same repository to rearrange the file positions based on their dependencies.
  • Step 3: Concatenating dependent files to form a single example and employ repo-level minhash for deduplication.
    期待发布这两部分的更多细节

Rosacess avatar Nov 10 '23 08:11 Rosacess

之后会有技术报告出来的

请问技术报告里包含SFT数据的构造方法吗,以及SFT数据是否开源?顺便问一下技术报告什么时候能出来,很期待👍

wyjksyjs avatar Nov 14 '23 07:11 wyjksyjs

请问这部分内容现在有更新吗?

i-love-doufunao avatar Nov 26 '23 12:11 i-love-doufunao

ding 一个

ali8zake avatar Dec 02 '23 04:12 ali8zake