

Arithmetic Text preprocessingEmotion analysis Retail
2018/07/17 16:21:16 data
(Data can be downloaded after registration) 【数据下载-10.22版】BDCI 2017-泰一指尚-基于主题的文本情感分析 -训练数据
2018/07/17 16:21:16 data
(Data can be downloaded after registration) 【作品样例-11.2版】BDCI 2017-泰一指尚-基于主题的文本情感分析 -提交样例
2018/07/17 16:21:16 data
(Data can be downloaded after registration) 【复赛数据下载-11.21版】BDCI 2017-泰一指尚-基于主题的文本情感分析 -训练数据
电商商品评论数据
注意:某些数据的某些字段可能为NULL或者表情符号,请自行处理。
训练数据
Field | Type | Description | Note |
---|---|---|---|
row_id | String | 测试数据ID | |
content | String | 评论内容 | |
theme | String | 主题 | 提取或归纳出来的主题 |
sentiment_word | String | 情感词 | 情感词 |
sentiment_anls | String | 情感分析 | 分析出的情感 |
某些数据中存在多个主题,多个情感词及情感分析等,请自行拆分。
测试数据
您下载的测试数据格式
Field | Type | Description | Note |
---|---|---|---|
row_id | String | 测试数据ID | |
content | String | 评论内容 |
初赛评价标准:
本赛题采用F1-score进行评价。
注意:
如果某些row_id样本中有多个主题,您只识别出其中几个,那么会被当做漏判识别。若识别出的主题多于答案,则会被当做多判识别。
在最终评测时,我们按照“主题词-情感词-情感值”为最小粒度逐条与标注数据进行比对,若三者均与答案相符,则判为情感匹配正确,否则为错误。评分计算如下:
a) 情感匹配正确数量:tp
b) 情感匹配错误数量:fp
c) 情感匹配漏判数量:fn1
d) 情感匹配多判数量:fn2
Fβ=β2∗p+R1+β2∗p∗R(β=1)
关于主题-情感词对的验证方式如下:
例如:
如评论中出现"皮肤"字段,标准答案为"皮肤",选手答案若为"皮",则视为错误;
如评论中出现"送货速度",标准答案为"送货速度",若选手答案为"送货"或"速度",则也视为主题找到;
若评论中出现"屏幕分辨率",标准答案为"分辨率",而选手答案为"屏幕分辨率",则也视为正确。
复赛评价标准:
本赛题采用F1-score进行评价。
注意:
如果某些row_id样本中有多个主题,您只识别出其中几个,那么会被当做漏判识别。若识别出的主题多于答案,则会被当做多判识别。
在最终评测时,我们按照“主题词-情感词-情感值”为最小粒度逐条与标注数据进行比对,若三者均与答案相符,则判为情感匹配正确,否则为错误。评分计算如下:
a) 情感匹配正确数量:tp
b) 情感匹配错误数量:fp
c) 情感匹配漏判数量:fn1
d) 情感匹配多判数量:fn2
准确率P=tp+fp+fn2tp
召回率P=tp+fp+fn1tp
Fβ的数学定义如下:
Fβ=β2∗p+R1+β2∗p∗R(β=1)
关于主题-情感词-情感值对的验证方式如下:
例如:
如评论中出现"皮肤"字段,标准答案为"皮肤",选手答案若为"皮",则视为错误;如评论中出现"送货速度",标准答案为"送货速度",若选手答案为"送货"或"速度",则也视为主题找到;若评论中出现"屏幕分辨率",标准答案为"分辨率",而选手答案为"屏幕分辨率",则也视为正确。
例如:
考生在提交的答案中如果主题一致,会对该该主题的情感词与答案中的情感词进行精确匹配,正例:标准答案为"很好",而选手答案为"很好",则也视为正确标,反例:准答案为"很好",而选手答案为"很不错",则也视为错误。
当一个样本主题词-情感词-情感值对都为空,即本样本不含主题-情感词-情感值对时,如果用户提交也为空,我们认为是正确的预测答案。
关于复赛,再次跟考生声明一下,提交的结果,必须以无bom-utf8格式的.csv文件来提交。注意在提交的时候请用文本编辑工具notepad++做复查。
其次每位考生提交的结果,行数必须是跟标准答案的提交行数一致(包括在训练过程中),比如:标准答案有100道题目,那么对应的提交结果也是100道,否则在平台上提交答案会出现“行数不足”等情况。
复赛考生的格式规范要求,各位考生请注意一下,在你们提交的结果集中,不能出现续行的情况,一道题目所对应的答案必须是在这一行里面,否则出现续行情况,即作为非法提交;
另外关于每位考生提交的结果集中,表头的部分不需要,只要给出每个题目对应的答案就可以。
按照规定格式提交csv文件,里面中包含您的算法识别的情感信息,数据编码使用“utf-8”,字段如下:row_id,content ,theme,sentiment_word,sentiment_anls。空的或者无效的row_id都会被自动忽略掉,提交数据的内容格式与训练数据的内容格式相同。
Field | Type | Description | Note |
---|---|---|---|
row_id | String | 测试数据ID | 您下载的测试文件中的row_id |
content | String | 评论内容 | |
theme | String | 主题 | 提取或归纳出来的主题 |
sentiment_word | String | 情感词 | 提取出的情感词 |
sentiment_anls | String | 情感分析 | 分析出的情感(1,0,-1) |
注意:情感值中用“-1”表示负面,“0”表示中性,“1”表示正面
作品提交样例见“数据下载”-【作品样例-11.2版】BDCI 2017-泰一指尚-基于主题的文本情感分析 -提交样例