2018-YunYiCup-Emotion-classification
2018-YunYiCup-Emotion-classification copied to clipboard
2018年云移杯-景区情感词分类(评分1-5)
云移杯 2018
2018年云移杯---景区情感词分类(评分1-5)
数据集:链接:https://pan.baidu.com/s/1-z2QBjXCnd2dAf-eZFeDXA 密码:f06v
题目描述
本赛题通过获取网友反馈的评论文本跟评论分值做训练数据,期望通过机器学习得出评论文本与评论分值之间的关系。 本赛题任务要求必须使用本赛题提供的数据作为训练集,不得额外扩展训练集。允许使用第三方提供的数据字典文件,但字典内容不能与比赛文本一致。
1.题目数据分析
题目数据属于基本的中文文本,含部分英文字符;题目数据初赛+复赛约三万数据,且数据多为旅游评论数据(一部分数据源于驴妈妈,携程等第三方平台爬虫获取)
2.基本方案
由于题目label区间为1-5,且评分之间存在一个潜在的等级关联。(其实是评分方案是mse,所以采用了回归方案,分类效果不太好,没有采用(我认为这个地方不合理,故意优化mse,可能导致其他指标效果变差))
ps:因为只是一个比赛,直接优化的是mse指标,之前做过一些实验,如果优化l1,可以使图像轮廓清晰,l2指标也很好,但是其roc曲线特别差,如果优化l2,可以使l1指标较好,且roc曲线比较平滑
2.1 TFIDF+岭回归(中英)
2.2 根据预料自训练w2v词向量+深度学习模型(textcnn,gru,rcnn)(中)
2.3 队友的深度学习模型 + lightGBM + stacking
2.4 伪前缀匹配规则修正 2.1,2.2,2.3的模型
好的评论千篇一律,坏的评论大多雷同
2.5 简单的加权融合
代码整理后尽快上传
自身问题 : 数据的预处理工作较少,数据理解不深刻
基本结构图