esbatmop
esbatmop
> 个人建议。现在放到huggingface上的数据属于法律文书甚至还有学习强国上的。 这些包含了部分隐私信息的情况。个人任务这部分数据还是暂时不公开或者脱敏的好,不然很容易担责。 这部分数据是国家有法律法规明确公开公示的。请你指出来包含隐私信息的具体文件。
代码成熟后都会挂到首页上。 可以在github搜_mnbvc后缀的仓库,都是项目组同学正在开发中的代码。
收到,这个问题我们研究下
本项目是为了对标ChatGPT的40T网页语料,力求在数据量上先达到同一级别,暂时不提供索引和分类。
因为我们没有对数据来源进行版权审核的能力,为了能尽量长期的提供服务,本数据集不会提供压缩包的索引和分类信息,并且恳请网友们不要讨论压缩包的索引和分类,低调的使用数据。
伟大的里屋管理员已经紧急上线了[留言板功能](http://mnbvc.253874.net/),除了可以在上面邮箱邮件沟通外,也可以在留言版放上数据下载链接.只要是中文数据内容不限题材都可以提供,里屋社区有几个同学负责各种格式的转码和数据清洗.
> @esbatmop 这儿大约有4675本科幻小说 https://github.com/guhhhhaa/4675-scifi 这个之前已经收录了
感谢,如果有可以支持项目的算力资源,请发邮件给我们[email protected] 请参考我们的wiki了解项目更多细节:https://wiki.mnbvc.org/doku.php/xmhx
你们冲进来实在太快了。 1.大佬后面要加“们”,这是里屋社区长期维护的项目。 2.目前放出的是保留原始信息的带来源的语料,我们会清洗一份开箱直接可用的放到huggingface上。
同名数据集,别急,现在里面还是空的。有东西了会在github这边首页更新的。