corpus-data topic

List corpus-data repositories

pansori-tedxkr-corpus

27
Stars
4
Forks
Watchers

Korean ASR Corpus generated from TEDx talks

Jinyong-Corpus

39
Stars
15
Forks
Watchers

金庸15部小说字典

chatgpt-corpus

777
Stars
131
Forks
Watchers

ChatGPT 中文语料库 对话语料 小说语料 客服语料 用于训练大模型

bilibili_comment_crawl

38
Stars
0
Forks
Watchers

爬取bilibili视频下的评论,最新出品!!!⚠本代码只适用于学习,做其他事情概不负责!!!

MNBVC

3.1k
Stars
214
Forks
Watchers

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、...

4675-scifi

328
Stars
58
Forks
Watchers

chinese NLP corpus of chinese science fiction,chinese science fiction corpus : About 4675 Chinese science fiction novels 大约有4675本科幻小说,中文科幻小说自然语言处理语料库,中文科幻小说文本语料库,...

wula-scifi

83
Stars
19
Forks
Watchers

chinese NLP corpus of chinese science fiction, chinese science fiction corpus: Archive of the Ark Plan of Ula Science Fiction Website 乌拉科幻小说网方舟计划存档,中文科幻小说自然语言处理语料库,中文科...

ccnc

28
Stars
7
Forks
Watchers

CCNC: A Comprehensive Chinese Name Corpus (3.65M name samples). 大型中文姓名语料库 (内含365万姓名语例)。