Book-Names-Corpus
Book-Names-Corpus copied to clipboard
图书名语料库。含部分电影、游戏名称。
图书名语料库(Book-Names-Corpus)
业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。
不定期更新。只删词,不加词。
可用于中文分词、作品名识别。
图书名语料库,总510万词,开源100万词。
有需要全部语料的同学,可以用等量的我没有的其他语料交换。
图书名语料库(Book-Names-Corpus)
数据大小:100万。
语料来源:多个词典汇总。
数据清洗:已清洗,但仍存有大量badcase,主要是电影名、电视名、游戏名等。
ISBN语料库(ISBN-Corpus)
数据大小:100万。
语料来源:多个词典汇总。
数据清洗:未清洗。
请勿提交涉政issue:
惹不起呀,谢谢~
语料中还存有的,会在后续的更新中逐步删除掉。
更新时间:
删除部分badcase。 -2019.07.27
新增100万ISBN号。 -2019.09.10
删除部分badcase。 -2019.09.28
删除部分badcase。 -2020.12.13
@萌名NameMoe 整理
2020.12.13