Chinese-ancient-poetry-text-mining
Chinese-ancient-poetry-text-mining copied to clipboard
古诗词爬虫和文本挖掘,含13个朝代的3万多条诗人数据、85万多条诗词数据,包括主题聚类、相关诗词推荐、藏头诗生成、诗词翻译等算法实现
古诗词爬虫和文本挖掘
爬虫和文本挖掘部分代码和数据开源
- spider:爬虫和数据清洗代码,文件具体功能见第一行注释
- data:数据整理结果,包括13个朝代的3万多条诗人数据,85万多首诗词数据,10万多条意象数据,近2万首含译注赏析的诗词数据,以及各个朝代不同省市的诗人信息
- topic_model&LSA:主题聚类和推荐模型
- GPT2-Chinese-old_gpt_2:GPT2实现藏头诗生成,含训练好的模型,可以输入格律、风格和藏头字,自动生成藏头诗,主要参考https://github.com/Morizeyao/GPT2-Chinese
- bert2transformer_on_NMT:Bert实现翻译模型,含训练好的模型,输入文言文或者古诗词,会自动生成相应的白话文翻译,主要参考https://github.com/rjk-git/bert2transformer_on_NMT
由于github文件大小限制,仓库里主要包含代码文件,完整的代码、所有数据和训练好的模型文件存于百度网盘(链接: https://pan.baidu.com/s/1ExaqJ4O35MZP-EQrgoFCIA 提取码: hg5j)
机器学习部分参考代码和资料
-
甲言文言文处理库:https://github.com/jiaeyan/Jiayan
-
基于Bert的翻译模型:https://github.com/rjk-git/bert2transformer_on_NMT
-
基于GPT2的藏头诗生成模型:https://github.com/Morizeyao/GPT2-Chinese
-
文言文语料:https://github.com/NiuTrans/Classical-Modern
前端开发推荐学习网站
- B站入门课程:https://www.bilibili.com/video/BV1QW411N762
- 网页模板网站(网页设计比较新颖):https://cool.mfdemo.cn/cp/1/industry/41
- 网页模板网站(一般有源代码):http://www.cssmoban.com
- https://man.ilovefishc.com
- https://www.runoob.com
- https://www.php.cn
- https://www.bootcss.com