Book-Names-Corpus icon indicating copy to clipboard operation
Book-Names-Corpus copied to clipboard

图书名语料库。含部分电影、游戏名称。

图书名语料库(Book-Names-Corpus)

业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。

不定期更新。只删词,不加词。

可用于中文分词、作品名识别。


图书名语料库,总510万词,开源100万词。

有需要全部语料的同学,可以用等量的我没有的其他语料交换。


图书名语料库(Book-Names-Corpus)

数据大小:100万。

语料来源:多个词典汇总。

数据清洗:已清洗,但仍存有大量badcase,主要是电影名、电视名、游戏名等。


ISBN语料库(ISBN-Corpus)

数据大小:100万。

语料来源:多个词典汇总。

数据清洗:未清洗。


请勿提交涉政issue:

惹不起呀,谢谢~

语料中还存有的,会在后续的更新中逐步删除掉。


更新时间:

删除部分badcase。 -2019.07.27

新增100万ISBN号。 -2019.09.10

删除部分badcase。 -2019.09.28

删除部分badcase。 -2020.12.13


@萌名NameMoe 整理

2020.12.13