internet-dataset icon indicating copy to clipboard operation
internet-dataset copied to clipboard

【数据集】好耶,是互联网数据集!

Results 4 internet-dataset issues
Sort by recently updated
recently updated
newest added

直接复制到savedata似乎没有用

包含 被搜索的内容、此内容被搜索的次数、最近一次被搜索此内容取回多少数据

请问是需要下载所有完整的数据集并解压在savadata下才行吗?还是可以只下载一部分压缩包并解压? 对于另一个Issue 关于数据集 #5 你说[RimoChan](https://github.com/RimoChan) commented [on Sep 30](https://github.com/RimoChan/internet-dataset/issues/5#issuecomment-1741736164) 3种类数据都包含「不同网站的网址」,但是抽样的方法不1样。你可以直接把3个.001都下回去,看看哪个是你想要的。 我就只下载了这三个001文件并解压在savedata下,出现了: ** domain.zip.001 - 该文件已损坏,或缺少其余压缩分卷。 domain.zip.001: 网站之门\2a\d28_ - CRC 校验错误。 出现错误 ** 请问这样的数据还能使用吗? 也就是,解压分卷得到的数据就能用,还是说解压完整卷才能使用?