CSL
CSL copied to clipboard
[COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集
请问能公开论文中提到的CLS-T5模型吗,谢谢!
训练问题
你好,我直接运行你的代码会出现以下问题: `Traceback (most recent call last): File "/content/UER-py/finetune/run_text2text_csl.py", line 348, in main() File "/content/UER-py/finetune/run_text2text_csl.py", line 277, in main model = Text2text(args) File "/content/UER-py/finetune/run_text2text_csl.py", line 24, in __init__ self.embedding = str2embedding[args.embedding](args,...
作者你好,我在搜索你们提供的数据集的时候,发现对应的论文标题搜索出来的论文发表时间最早可到1998年,跟数据集描述的2010-2020年的中文核心期刊论文这一个时间段有出入。请问你们会检查数据集并作更新吗?
请问每篇论文的参考文献字段可以附上吗,这样就可以实现类似multi-xscience的功能了,做多文档摘要了
预训练数据集数据似乎远多于发布的论文元数据集。 在训练模型时为了去重,我简单校验了两个数据,似乎是不重叠的? 方便简要说明下预训练数据的来源和内容吗 - 预训练的数据集 - csl.jsonl - 2310165 line - 论文元数据 - csl_camera_readly.tsv - 396209 line
想请问下,我点了README中的国家科技资源共享服务工程技术研究中心,在网站中没找到怎么查找数据的入口?
也就是每篇文章是什么时候发表的?
数据集内容问题
作者您好,我想问一下您,在这四十万数据中是否包含专利文本~