ABSA-PyTorch icon indicating copy to clipboard operation
ABSA-PyTorch copied to clipboard

关于中文数据集

Open zxgx opened this issue 5 years ago • 11 comments

请问下有适合做aspect-based sentiment analysis的中文数据集吗?我在网上找到的似乎都是句子级别的数据。

zxgx avatar Nov 24 '19 15:11 zxgx

请问下有适合做aspect-based sentiment analysis的中文数据集吗?我在网上找到的似乎都是句子级别的数据。

你好,请问句子级别的中文数据集,是用的哪个呢?

dabao0903 avatar Jan 09 '20 02:01 dabao0903

请问下有适合做aspect-based sentiment analysis的中文数据集吗?我在网上找到的似乎都是句子级别的数据。

你好,请问句子级别的中文数据集,是用的哪个呢?

https://github.com/SophonPlus/ChineseNlpCorpus 还有CSDN上有一些,基本都是来源不明的那种

zxgx avatar Jan 09 '20 02:01 zxgx

请问下有适合做aspect-based sentiment analysis的中文数据集吗?我在网上找到的似乎都是句子级别的数据。

你好,请问句子级别的中文数据集,是用的哪个呢?

https://github.com/SophonPlus/ChineseNlpCorpus 还有CSDN上有一些,基本都是来源不明的那种

非常感谢

dabao0903 avatar Jan 09 '20 02:01 dabao0903

之前我在一篇KBS的文章Learning multi-grained aspect target sequence for Chinese sentiment analysis中看到他们使用的是camera, notebook, car, phone这四个中文ABSA数据集,不过只有正负两个极,我目前也是采用这几个数据集做的方面抽取和极性分类。 @zxgx

yangheng95 avatar Jan 09 '20 03:01 yangheng95

之前我在一篇KBS的文章Learning multi-grained aspect target sequence for Chinese sentiment analysis中看到他们使用的是camera, notebook, car, phone这四个中文ABSA数据集,不过只有正负两个极,我目前也是采用这几个数据集做的方面抽取和极性分类。 @zxgx

@yangheng95 您好,您说的这个中文数据集我也看见了,我想请教一下,在这个数据集中我们以 camera 为例,它会有三个文件,分别是 camera_sentence.txtcamera_label.txtcamera_target.txt,我的疑问是camera_label.txt 这个文件中标注的整个句子的情感极性还是针对某一个 target 的极性呢,因为我看见 camera_target.txt 这个文件中有的一行会标注好几个 target,所以有点不明白,我在网上也没有找到关于该数据集的详细描述,希望您为了解惑,谢谢!

gaozhengjie avatar Jan 09 '20 03:01 gaozhengjie

这个个数据集其实并不完美,每个句子中都只有一个target,所以极性可以认为是target的,也可以认为是句子的。target一行几个词语数据集没有注释,作者貌似也没有解释过,不过我推测是每一行都是单独的target,只不过是分词的target,类似于英文空格分词的单词组成的target。 @gaozhengjie

yangheng95 avatar Jan 09 '20 03:01 yangheng95

@yangheng95 谢谢!

gaozhengjie avatar Jan 09 '20 03:01 gaozhengjie

@yangheng95 非常感谢

dabao0903 avatar Jan 09 '20 03:01 dabao0903

您好,请问有没有做中文数据的方面级的代码,可以分享一下吗

haosiqing avatar Jan 12 '20 07:01 haosiqing

ABSA的代码通用性挺高的,缺乏的是相应的数据集,我收集处理了4个论文中使用过的数据集: Chinese ABSA Datasets @haosiqing

yangheng95 avatar Jan 12 '20 12:01 yangheng95

之前我在一篇KBS的文章中学习用于中国情感分析的多粒度方面目标序列中看到他们使用的是相机,笔记本,汽车,电话这四个中文ABSA数据集,不过只有正负两个极,我目前也是采用这几个数据集做的方面去除和极性分类。@zxgx

@ yangheng95您好,您说的这个中文数据集我也看见了,我想请教一下,在这个数据集中我们以camera,它会有三个文件,分别是camera_sentence.txtcamera_label.txtcamera_target.txt,我的疑问是camera_label.txt这个文件中标的的整个句子的情感极性还是针对某一个目标的极性呢,因为我camera_target.txt看到这个文件中有的一行会标注好几个目标,所以有点不明白,我在网上也没有找到关于该数据集的详细描述,希望您为了解惑,谢谢!

你好,想请问一下,为什么我在用运行于Bert的模型训练您所说的上述中文数据集的时候,出现了Acc>90,F1<60的情况,你可以帮我解惑吗

fathouse avatar Jul 09 '20 00:07 fathouse