DeepSeek-Coder
DeepSeek-Coder copied to clipboard
请问可以发布更多关于数据清洗的细节吗?
目前第一步数据清洗是与starcoder相同,想学习了解后面是如何过滤掉低质量代码、语法错误或可读性差的代码的。
谢谢!
之后会有技术报告出来的
之后会有技术报告出来的 好的,多谢,会持续关注的
We also are closely paying attention to how to preprocessing code dataset, especially how to handle the dependencies among code file
- Step 2: Parsing the dependencies of files within the same repository to rearrange the file positions based on their dependencies.
- Step 3: Concatenating dependent files to form a single example and employ repo-level minhash for deduplication.
期待发布这两部分的更多细节
之后会有技术报告出来的
请问技术报告里包含SFT数据的构造方法吗,以及SFT数据是否开源?顺便问一下技术报告什么时候能出来,很期待👍
请问这部分内容现在有更新吗?
ding 一个