Chinese_emotion_predict icon indicating copy to clipboard operation
Chinese_emotion_predict copied to clipboard

Predict Chinese sentence's emotion. 中文情绪识别

中文情绪识别

通过微博数据的表情,尝试用表情等信息标注文本数据,产生一定的情绪识别效果

细节待补充...

PS:一般情感识别是sentiment的翻译,此关键字的相关研究往往是两极、三极的,就是正负情绪,或者外加中性情绪。 而emotion一般指多种情绪,如开心、伤心、生气、反感、惊讶等。

PS2:简单实验的repo,除非想到特别好点子或者弄到特别好的数据,否则以后可能不会再更新

流程

文件,s0是指repo中s0开头的文件,ipynb文件是jupyter notebook格式, py文件是python3格式。

s0: 提取微博数据和其中的自动标签
s1: 构造数据字典
s2: 构造训练数据
s3: 训练模型
s4: 测试结果,和模型调用样例

结果样例

(200, ) 上面一行是自动标签的标注,下面的百分比是算法给出的概率。

1、可以看出,很多自动标签的标注就是有问题的。
2、数据有很多是繁体的,可能和香港大学抓取的有关,暂时我没弄到大陆的微博数据。
3、模型没有仔细调,只是简单的一些调整。


戴老师所言极是,我家每天的米饭都是大米,玉米渣,高粱米,荞麦米,小黄米,紫米搭配的,另外再加点紫薯块和南瓜块,老公天天说,想吃点白米饭怎么那么难呢,,其实这样搭配的另外一个好处就是,粗粮,饱腹感很强,可以抑制食欲
happy
(200,)
happy		30.01%
disgust		22.97%
angry		21.95%
sad		10.85%
fear		9.62%
suprise		4.60%
各种笑容的英文表达,smile(微笑)、laugh(大笑)、grin(露齿而笑)、chuckle(轻笑)、smirk(得意地笑)、simper(痴笑)、snicker(坏笑)、giggle(咯咯笑)、titter()、guffaw(狂笑)、roar(哄笑)、chortle(欢笑)、ridicule(嘲笑)、deride(讥笑)
happy
(200,)
happy		88.83%
disgust		4.43%
fear		2.33%
sad		2.01%
angry		1.74%
suprise		0.67%
爲了兩件垃圾系度同我講錢仲要問候埋我娘親求你都系多餘,個晚擔心你安危都系多7魚,仲講乜野朋友我呸呸甘多年10年我都未講耐1000蚊買起你人格,講錢傷感情,講到錢乜野兄弟朋友都無得做,全部通通走開,全都爲個區區臭錢,從今開始互不借錢,終於明白咩叫借錢如送禮,還錢如乞米
angry
(200,)
angry		69.69%
disgust		10.22%
sad		8.71%
suprise		4.87%
fear		4.67%
happy		1.84%
很久没看電視,今晚看到碧X洗衣液的廣告,還"粉絲鄰居"呢,配合小S"不裝B會死"的表情,感覺真賤啊
happy
(200,)
happy		45.63%
disgust		17.55%
angry		14.33%
sad		10.81%
fear		8.83%
suprise		2.86%
回复这是我自己猜猜的,说是超级大腕律师,肯定非同一般,又是专业律师,又安排元月四号讲座,再结合往年的建纬与大成的接触,可想而知的。我估计就是他。你现在可以去大成挖一个更大的过来,比如把挖过来,,刘不是要辞去主任啦?机会啊 。
happy
(200,)
happy		45.16%
disgust		20.94%
fear		12.70%
suprise		7.41%
angry		7.27%
sad		6.53%
这家KTV真心不错啊~老王一Sukey是围脖菜鸟 玩夹娃娃一夹即中还送我了,理由是觉得Hello Kitty不好看,我屁颠屁颠地要了,心花怒放了一路啊我知道你是故意要送我的,这么好的女人哪里去找啊~ 另外还要感谢一宇宙人萊斯麗張丁丁 你那时推荐过这间!!!
happy
(200,)
happy		61.16%
fear		11.02%
sad		10.59%
disgust		10.23%
angry		5.04%
suprise		1.96%
以前提到结婚,想到「天长地久」;现在提到结婚,想到「能撑多久」。当初会结婚,说是「看上眼」;后来会离婚,说是「看走眼」。婚前,爱情是神话;婚后,爱情是笑话。女人花钱,是因为男人让她不高兴;男人花钱,是为了让女人高兴。
happy
(200,)
happy		72.67%
disgust		10.44%
fear		6.53%
sad		4.32%
angry		3.75%
suprise		2.29%
写给什么都不懂的,即将陪男友一起看片的妹纸,复仇者战队由美国队长,钢铁侠,雷神,绿巨人,鹰眼,斯嘉丽大波妹组成,复仇者的意思就是你丫别招我,招了我我就跟你丫死磕到底的意思。
disgust
(200,)
happy		53.88%
disgust		15.00%
angry		11.77%
sad		9.42%
fear		7.74%
suprise		2.20%
春光明媚中,特别适合二,纷扰沉重,独你缺心眼。心眼有时必须缺,看着那帮心眼多的人跟那儿没完没了算计,你该庆幸自己缺心眼,你该觉得自己二得有人味。清水出二逼,天然缺心眼---李白的诗写得就是好。---大仙
happy
(200,)
happy		38.07%
sad		19.06%
disgust		15.52%
fear		14.55%
angry		9.98%
suprise		2.82%
【唯一视觉·七夕】七夕情人节你要怎么过?路过 略过 哭过 笑过 吃过 喝过 醉过 疯过 睡过 难过 一笑而过 擦肩而过 租个人过 闭门思过 爱咋过咋过 怎么高兴怎么过~【时尚婚纱照、韩式清新照、一切尽在唯一视觉】
fear
(200,)
happy		66.56%
disgust		11.22%
fear		9.67%
sad		5.74%
angry		3.83%
suprise		2.97%
【白领适合菊花茶】菊花沏茶尤其适合上班族多喝,菊花里含有丰富的维生素A,是维护眼睛健康的重要物质。菊花茶对肝火旺、用眼过度导致的双眼干涩有较好的疗效,眼睛近视的人更是经常感到眼睛干涩,喝菊花茶能改善眼睛的不舒服,对眼睛疲劳、视力模糊有很好的疗效
angry
(200,)
happy		37.21%
disgust		19.23%
fear		18.96%
suprise		13.55%
sad		6.08%
angry		4.97%
一杨姓编剧外出写戏,对方接待殷勤, 一口一个“杨编”叫得甚是亲热。哥们听着不舒服,请他们换个称呼。第二天大家都改口称他为“杨剧”,杨编剧崩溃了。。。
happy
(200,)
happy		46.54%
disgust		17.70%
angry		11.75%
sad		10.87%
fear		9.97%
suprise		3.18%
古装武侠巨制《》第一波高清剧照曝光——“刀客”傅红雪:@钟汉良!他叫红雪,是因为出生当天的流血,将满地的雪都染红。上天是残忍的,给他一出生就安排了一场惨绝的大屠杀。@华策影视@电视剧天涯明月刀@钟汉良官方网站
sad
(200,)
angry		33.80%
disgust		19.72%
sad		18.74%
fear		14.17%
suprise		7.09%
happy		6.49%
【父亲对孩子影响】1、性别认同:父亲是男孩最重要的典范,是女孩对异性看法的基础2、自我认同:儿时没得到父亲赞美和肯定,长大会自卑和焦虑3、价值观:母亲在婴幼儿期特别重要,父亲在儿童期特别重要儿童期望成为像父亲那样的人所以爸爸们要加油啊!
happy
(200,)
happy		44.45%
fear		20.82%
sad		18.37%
disgust		9.56%
angry		4.28%
suprise		2.51%
Cindy在唱come on在看Hito頒獎禮 除了金曲獎 我已經很少會看直播頒獎禮了 這個有很多紅星 (當然我家杰倫是重點) 也蠻具指標性  只是,電腦上不了微博是什麼一回事
angry
(200,)
happy		59.12%
disgust		13.67%
sad		8.73%
angry		8.66%
fear		7.76%
suprise		2.05%
这是我今天听到的最惊悚的消息,MMJ你这得伤了多少高帅富的心啊!一万四一条牛仔裤你在中国卖的哗哗的,你说你干吗非跟个共产主义者合作?的理想跟金胖子一样,丫可是想让全国人民穿上LV的疯B啊!//花哥 今天看到mmj都开始和凡客联名合作了 想起你以前说的对外收购 品牌不靠谱 要以资源性为主
sad
(200,)
disgust		27.24%
angry		24.49%
suprise		19.91%
fear		13.45%
sad		9.31%
happy		5.60%
一大早,分享一个安静的书房,新中式的风格,有点被穿越了的味道,其实重点在墙上的那四个字:!各位日日忙碌的童鞋们,努力工作吧,为自己、为理想、为家人、为生活……
happy
(200,)
happy		58.72%
sad		11.47%
disgust		11.35%
fear		10.59%
angry		5.91%
suprise		1.96%
,你就继续舔恒大吧,去广州住顶级酒店?免费?还报销找小姐的钱?达10哪不如孔卡?前锋进球才是王道!什么位置干什么事。孔卡拿着欧洲一线球员的年薪他就应该有那样的表现。别再BB了。
happy
(200,)
disgust		28.87%
happy		25.97%
angry		21.36%
fear		8.38%
suprise		8.10%
sad		7.32%
俄罗斯方块告诉我们:犯下的错误会积累,获得的成功会消失;植物大战僵尸告诉我们:须常调整状态,方能应付不同挑战;愤怒的小鸟告诉我们:有时沉下身心,是为了飞的更高;跑跑卡丁车告诉我们:永远别觉得时间还多,可以浪费;爱情公寓告诉我们,爱情友情、基情恋情,有时太难区分~
happy
(200,)
happy		24.92%
disgust		19.99%
sad		18.64%
fear		17.95%
angry		13.40%
suprise		5.10%
我们的国家,我们要说话才对!/我们的生活总被赋予悲凉的新意,有人不过为了同工同酬,就进了精神病院;有人不过想吃顿安全的饭菜,被逼成了化学家;有人不过是深爱着他的家,却走在了卖国的路上。所以这里的荒诞并不是荒诞,而是一种荒诞必演化成另一种荒诞。
sad
(200,)
sad		53.83%
fear		27.38%
happy		5.87%
disgust		5.71%
angry		4.58%
suprise		2.63%

模型细节

TODO

想尝试几种不同的模型,做一个train val test出来,当然这样也会有某种overfitting,不过只是测试下

现在想到的模型和模型trick有可能有效的:

  • position embedding
  • embedding dropout
  • bi-RNN
  • regularizer
  • gaussian noise
  • batch normalization
  • attention

随便说说,交叉验证应该很慢

微博数据

微博数据来自香港大学学术库 Fu, KW. (2017). Weiboscope Open Data. (Dataset) The University of Hong Kong, Pokfulam, Hong Kong SAR.

参考文献

参考文献 (Yuan et al.,2015)

本repo一些思想来自于参考文献,参考文献使用SVM模型,本repo使用deep learning模型

细节部分肯定很多不同,仅供参考