MNBVC
MNBVC copied to clipboard
网站上传文件的困难
- 现在只支持后缀为.txt,但是很多文本文件(cpp、py、tex)等不一定以txt结尾。重命名很麻烦。
- 建议加个文本框,复制粘贴即可上传语料。
- 似乎目前不支持同时上传多个文件。
现在是支持同时上传多个文件的,但是太多的话(超过20个)也会失败 。因为是个简易的网页版。最开始确实设想的就是网友每天随手传两个txt上来就好。 另外,我可以添加允许上传的文件种类 。请你帮我想想,除了这个issue中提到的 cpp,py,tex之外,还有哪些扩展名的文件是需要支持的? 你提的问题确实很有道理,我们接下来准备重写这个元气弹项目的功能。
现在元气弹项目已经支持'txt', 'py', 'md', 'json', 'cpp', 'tex'格式文件的上传 ,也支持多个文件的同时上传。 元气弹项目本意是大众支持者的零散语料的日积月累。 如果有大量语料文件,最好单独找分享渠道,比如网盘,比如wormhole.app/ 这样的加密文件分享平台等。然后通过留言板给我们分享下载地址。这样效率可能更高。 还有任何问题,可以随时说。
我本地存储了cbooks数据集,大概15万本中文pdf电子书, 大概4T,百度网盘分享链接会被屏蔽,是否需要,如需要如何快速分享
不出意外的话,绝大多数公开渠道能够下载的电子书我们已经全部收录下载了。 你可以判断一下你的收藏中是否有其他互联网渠道很难找到的特殊内容,然后挑出来打包分享给我们。 其他大多数内容我们就不重复下载了。 谢谢你的支持。
Cbooks是基于网上开源的MD5图书链接,应该是被收录了。若有需要,随时提供。
不出意外的话,绝大多数公开渠道能够下载的电子书我们已经全部收录下载了。 你可以判断一下你的收藏中是否有其他互联网渠道很难找到的特殊内容,然后挑出来打包分享给我们。 其他大多数内容我们就不重复下载了。 谢谢你的支持。
这个“公开渠道”是否已经包括了安娜上维护的到9月7日为止的zlib数据集镜像呢?