ChinaTextbook
ChinaTextbook copied to clipboard
使用PDF提取工具变成了markdown
https://github.com/opendatalab/awesome-markdown-ebooks
Markdown格式的。
群主可以为我这个项目加个链接吗,目前大模型发展很快非常需要这种数据用于提高模型性能。
我看了下sample 感觉变化有点大。。 你确定模型看这个能学的明白吗。
@TapXWorld 模型和人不太一样。群主可以看下这个著名的LLM训练数据 https://huggingface.co/datasets/tiiuae/falcon-refinedweb/viewer/default/train?row=0
@drunkpig 其实除了训练数据,给人阅读版本的mark down也很有价值,最简单的应用就是文本扔到类似notebooklm 这样的应用里做学习使用