DomainWords
DomainWords copied to clipboard
SmoothNLP领域词汇示例 - 基于复旦公开新闻资讯库
SmoothNLP在领域文本上的短语抽取
本项目使用SmoothNLP中的
extract_phrase函数,从百度百科语料和复旦大学新闻语料中抽取领域专有词汇,并进行结果展示。
数据介绍
百度百科语料
本实验采用的数据来源于百度百科,包括经济、娱乐、艺术、社会、体育、历史、生活、科学、自然、地理、文化共11个领域的文本。
复旦大学新闻语料库
本实验采用的数据来源于复旦大学计算机信息与技术系国际数据库中心的复旦文本语料库,包括经济、计算机、环境、体育、艺术、农业、政治、历史、宇航、教育、法律、哲学、军事、文学、交通、医疗、矿业、能源、电子、通信共20个领域的文本。
- 经济领域文本示例:
经国务院批准,《对储蓄存款利息所得征收个人所得税的实施办法》于近日颁布,并将于1999年11月1日起实施,适用20%的比例税率。这表明,根据我国国民经济总量结构和国民收入结构的重大变化,1958年取消的《个人所得税法》免征的利息所得税即将重新征收。
征收利息所得税将有效刺激消费品需求的增加,扩大社会总需求,带动经济增长,并将转变居民的投资观念和消费观念。
第一,在扩大内需方面,征收利息所得税将比降息更加有效。储蓄存款利率下降与社会消费品增长有一定的相关关系:利率下降1个百分点,市场商品销售将增加1.8个百分点。但是1996年5月以来的7次降息实践表明,降息对扩大内需、增加社会投资的作用越来越弱。其主要原因在于:首先,目前不仅城乡居民的即期收入上不去,而且对未来的预期收入也不佳,同时政府机构精简、国有企业改革以及住房、养老、医疗、教育等各种制度的改革,使居民普遍感到预期支出的提高,我国又没有建立起完善的社会保障制度,从而增强了居民的储蓄动机,以增强安全感。其次,由于社会消费需求不足以及私人投资难以获得融资,降息并没有有效增加社会投资需求,但货币供给量增加,大量资金沉淀于银行,货币流通速度降低,造成货币政策作用不明显,一旦经济启动引起资金需求增加,货币流通速度加快,容易形成货币供应过多、经济过热的隐患。有可能隐入“启动—紧缩—再启动—再紧缩”的怪圈。
- 计算机领域文本示例:
加密技术可以使我们在不安全的通道上建立安全的连接。在Domino环境中,为了防止对非授权的数据库、文档或者邮件的存取,除对数据库进行不同级别的授权外(七种级别),我们能够对数据库、对某个库中的一个文档、多个文档或者全部文档进行加密。通过加密的办法,使得系统中的各种数据的安全在三个面上得到保障。加密的办法有多种多样的,但是总离不开加密用的密钥。Domino提供了对称和非对称的两种加密机制。在对称的加密机制中,用户需要在阅读加密文档时具备密钥。我们着重讨论对数据库中的一般文档、对使用指定表单产生的所有文档、文档中的全部字段或部分字段使用指定密钥进行加密、对数据库进行选择算法的加密以及指定用户解密的方法和技术。
领域词汇抽取教程
git clone https://github.com/smoothnlp/DomainWords.git
cd DomainWords
python getDomainWords.py
SmoothNLP函数调用示例
这里的短语抽取过程,用到了SmoothNLP提供的extract_phrase函数,该函数使用词语本身及词语的上下文特征进行短语抽取。
from smoothnlp.algorithm.phrase import extract_phrase
extract_phrase(corpus,top_k,chunk_size,min_n,max_n,min_freq)
参数说明:
corpus: 必需,file open()、database connection或list
top_k: float or int,表示短语抽取的比例或个数
extract_phrase函数可以基于大量文本实现高效的短语抽取。复旦新闻语料中不同领域文本的短语抽取用时统计如下:
| 数据领域 | 文件数 | 总字数 | 短语抽取用时 |
|---|---|---|---|
| Economy | 3201 | 2083,5291 | 2min 1s |
| Computer | 2714 | 1625,7862 | 1min 31s |
| Enviornment | 2435 | 1294,4809 | 1min 11s |
| Sports | 2507 | 1136,6098 | 1min 26s |
| Art | 1482 | 1054,7150 | 1min 1s |
| Agriculture | 2043 | 1027,1244 | 1min 1s |
| Politics | 2050 | 994,2158 | 54s |
| History | 934 | 774,8028 | 38s |
| Space | 1282 | 500,0878 | 24s |
| Education | 120 | 15,1783 | 51ms |
| Law | 103 | 14,9372 | 48ms |
| Philosophy | 89 | 14,4040 | 41ms |
| Military | 150 | 11,0303 | 32ms |
领域词汇效果展示
经过我们的实验分析, 文本量较大(字符数量>10万)能有效抽取出领域词汇. 以下是多个领域的结果展示:
百度百科语料
| 经济 | 娱乐 | 艺术 | 社会 | 体育 | 历史 | 生活 | 科学 | 自然 | 地理 | 文化 |
|---|---|---|---|---|---|---|---|---|---|---|
| 证券交易所 | 角色设计 | 大提琴 | 旅游管理 | 鸟栖砂岩 | 嫪毐 | 羽绒服 | 尖锐湿疣 | 锥尾鹦鹉 | 骊靬 | 字辈 |
| 土地使用权 | 美术监督 | 德彪西 | 仲裁机构 | 曹薰铉 | 羽柴秀吉 | 鹌鹑蛋 | 儿茶酚胺 | 金刚鹦鹉 | 劳务输出 | 油纸伞 |
| 所有者权益 | 色彩设计 | 德沃夏克 | 残疾儿童 | 釜山偶像 | 节度使李 | 薇薇新娘 | 甲氨蝶呤 | 裳凤蝶 | 滑雪场 | 朦胧诗 |
| 基金份额 | 合作演员 | 广陵散 | 软件技术 | 李昌镐 | 皇帝拓跋 | 哇咧哇咧 | 迷走神经 | 噪鹛 | 奶牛养殖 | 掐丝珐琅 |
| 转移支付 | 题材电影 | 和声 | 决策咨询 | 瓦伦西亚 | 可汗 | 虾仁 | 四氢呋喃 | 秋海棠 | 劳动保障 | 实训 |
| 申购 | 特别篇 | 相遇 | 诉讼程序 | 八卦掌 | 汪精卫 | 悦诗风吟 | 萆薢 | 国家公园 | 音乐喷泉 | 医学杂志 |
| 股票交易 | 海贼王 | 解脱 | 投融资 | 切尔西 | 乘机 | 排骨 | 陀螺仪 | 鸊鷉 | 集镇 | 文库 |
| 再保险 | 普通攻击 | 黄耀明 | 健康管理 | 水晶宫 | 征讨 | 八角桂皮 | 苯妥英钠 | 拉丁学名 | 汽车配件 | 符号学 |
| 供给量 | 副本 | 华尔兹 | 抵押物 | 水户蜀葵 | 率部 | 床垫 | 阿昔洛韦 | 玫瑰鹦鹉 | 暂无资料 | 伦理学 |
| 商品流通 | OVA | 邬祯琳 | 实训基地 | 守门员 | 奏请 | 豆瓣酱 | 滚动轴承 | 寄居蟹 | 荔枝龙眼 | 本章小结 |
| 外汇交易 | 邓萃雯 | 布袋戏 | 紧急救援 | 柏林赫塔 | 尉迟迥 | 辣椒粉 | 环磷酰胺 | 信天翁 | 休闲观光 | 歪歪兔 |
| 报酬率 | 怪物 | 独立厂牌 | 预付账款 | 客场挑战 | 驸马都尉 | 萎凋 | 吲哚美辛 | 鼬鳚 | 交通状况 | 邮政编码 |
| 折扣 | 番外篇 | 洛天依 | 夫妻双方 | 杭州绿城 | 总理衙门 | 辣椒酱 | 硫唑嘌呤 | 柳莺 | 高标准 | 学习任务 |
| 卖出 | 音响监督 | 黄凯芹 | 合伙企业 | 租借加盟 | 监察御史 | 调味料 | 千斤顶 | 鸟翼凤蝶 | 餐饮住宿 | 数字资源 |
| 储蓄存款 | 袁姗姗 | 宇多田光 | 诊疗 | 磐田喜悦 | 领兵 | 冰糖 | 机器人 | 柯伊伯带 | 贫困户 | 学习目标 |
| 违约 | 急袭猛禽 | 平沙落雁 | 住房保障 | 圣洛伦索 | 薛延陀 | 郫县豆瓣 | 断路器 | 鹪鹩 | 蔬菜瓜果 | 澄泥砚 |
| 赎回 | 四郎探母 | 乌兰托娅 | 地铁站 | 执教 | 斐迪南 | 白砂糖 | 氯丙嗪 | 萘乙酸 | 实验小学 | 文献传递 |
| 交割 | 守护者 | 厮守 | 刑讯逼供 | 费耶诺德 | 上杉谦信 | 糯米粉 | 氨苄西林 | 枪乌贼 | 溪镇 | 电子资源 |
| 所得税 | 杀手 | 康塔塔 | 税务稽查 | 赞助商 | 御史中丞 | 茉莉花茶 | 皮肤黏膜 | 刈割 | 关帝庙 | 托尔斯泰 |
| 买入 | 吐槽 | 贺绿汀 | 报送 | NCAA | 花剌子模 | 鸡翅 | 蒸汽锅炉 | 亚科 | 休闲垂钓 | 剪纸艺术 |
复旦大学新闻语料
-
经济
-
计算机
-
环境
-
体育
-
艺术
-
领域词汇获取方式:
https://github.com/smoothnlp/DomainWords.git
注:
- 本项目所用数据来自
复旦大学计算机信息与技术系国际数据库中心的复旦文本语料库:CSDN分享 直接下载 - 本项目中涉及的领域词汇结果, 已上传到DomainPhrase_Fudan、 DomainPhrase_BaiduBaike文件夹下.
- 本项目所用代码已在SmoothNLP中开源: https://github.com/smoothnlp/SmoothNLP.
看到这里,还有彩蛋0 :)
如果您对NLP感兴趣, SmoothNLP目前招收:
- (实习/全职) NLP算法工程师;
- (实习) 研究型NLP算法实习生 - 发paper的那种哈
cv投递[email protected].