ChinaTextbook icon indicating copy to clipboard operation
ChinaTextbook copied to clipboard

使用PDF提取工具变成了markdown

Open drunkpig opened this issue 5 months ago • 4 comments

https://github.com/opendatalab/awesome-markdown-ebooks
Markdown格式的。

drunkpig avatar Jul 04 '25 01:07 drunkpig

群主可以为我这个项目加个链接吗,目前大模型发展很快非常需要这种数据用于提高模型性能。

drunkpig avatar Jul 04 '25 01:07 drunkpig

我看了下sample 感觉变化有点大。。 你确定模型看这个能学的明白吗。

TapXWorld avatar Jul 17 '25 06:07 TapXWorld

@TapXWorld 模型和人不太一样。群主可以看下这个著名的LLM训练数据 https://huggingface.co/datasets/tiiuae/falcon-refinedweb/viewer/default/train?row=0

drunkpig avatar Jul 22 '25 02:07 drunkpig

@drunkpig 其实除了训练数据,给人阅读版本的mark down也很有价值,最简单的应用就是文本扔到类似notebooklm 这样的应用里做学习使用

clipsheep6 avatar Oct 13 '25 07:10 clipsheep6