

Antique Text preprocessingText Categorization Medical careSecurity
2020/03/05 00:55:57 data
(Data can be downloaded after registration) 训练集 - MD5: 1E03DB9284EAFCE357F760FCC404F3E9
2020/03/05 00:56:54 data
(Data can be downloaded after registration) 训练集图片 - MD5: 3d11a1202c064ed44a4c811a208f28b1
2020/04/03 03:31:35 data
(Data can be downloaded after registration) 测试集 - MD5: 466AC88C9FDD0A02D4A4D085711AFCE0
2020/03/05 00:58:35 data
(Data can be downloaded after registration) 测试集图片 - MD5: bcfd9e82bc08b8492b7937d2134b54e2
2020/03/05 00:59:14 submit sample
(Data can be downloaded after registration) 提交样例 - MD5: 1B3320A835917576B3252AB842D7824E
更新时间:4月3日11:31
更新内容:更新测试集,移除了测试数据集中与疫情无关的行
本次比赛将提供以下数据文件:
多模态虚假新闻检测数据集
本次虚假新闻检测任务中,包含文本和图片两种模态的信息。
1)文本数据
注意:本赛题不可使用外部数据集。入围团队需提供代码、说明文件等材料供审查。
为了辅助参赛者更好的分析赛题、优化方案,北京市特别开放了部分政府数据(部分数据首次开放)。参赛者报名大赛任意一道赛题后,即获得数据权限,可登陆北京市政务数据资源网(data.beijing.gov.cn)下载(报名后24小时内即可获权)。
【登陆方式】登陆时用户名为“DataFountain平台个人ID”(可在“我的主页”头像处查看),密码为“用户名!@#手机号后4位”。
【下载方式】成功登陆后,依次点击“个人中心”-“互动”-“我的活动”即可进入下载页面。
【数据提供方】北京市发展改革委员会、北京市经济和信息化局、北京市民政局、北京市生态环境局、北京市交通委、北京市水务局、北京市文化旅游局、北京市卫生健康委、北京市应急管理局、北京市气象局、北京市地勘局
【详情介绍】:https://data.beijing.gov.cn/kjzy2020/index.html
参赛者以csv文件格式,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中。csv文件字段如下:
字段名 | 类型 | 取值范围 | 字段解释 |
---|---|---|---|
id | string | - | 样本id |
fake_prob_label_0c | Float | [0,1] | 样本为虚假新闻的概率(不使用评论数据) |
fake_prob_label_2c | Float | [0,1] | 样本为虚假新闻的概率(使用至多2条评论数据) |
fake_prob_label_all | Float | [0,1] | 样本为虚假新闻的概率(使用所有评论数据) |
real_prob_label_0c | Float | [0,1] | 样本为真实新闻的概率(不使用评论数据) |
real_prob_label_2c | Float | [0,1] | 样本为真实新闻的概率(使用至多2条评论数据) |
real_prob_label_all | Float | [0,1] | 样本为真实新闻的概率(使用所有数据) |
ncw_prob_label_0c | Float | [0,1] | 样本无需进行真假判断的概率(不使用评论数据) |
ncw_prob_label_2c | Float | [0,1] | 样本无需进行真假判断的概率(使用至多2条评论数据) |
ncw_prob_label_all | Float | [0,1] | 样本无需进行真假判断的概率(使用所有评论数据) |
约束:real_prob_label_t+ fake_prob_label_t + ncw_prob_label_t = 1, t={0c,2c,all}。
示例如下:
id,fake_prob_label_0c, fake_prob_label_2c, fake_prob_label_all, real_prob_label_0c, real_prob_label_2c, real_prob_label_all, ncw_prob_label_0c, ncw_prob_label_2c, ncw_prob_label_all
1,0.7989,0.8001, 0.9212, 0.012, 0.010, 0.009, 0.1891, 0.1899, 0.0698
……
评价指标为加权求和的交叉熵,计算方法如下:
scoret=−N1i=1∑N[yifakelog(y^ifake,t)+(yireal)log(y^ireal,t)+yincwlog(y^incw,t)]
t∈{0c,2c,all}
score=β1score0c+β2score2c+(1−β1−β2)scoreall
score=(1+score)1
其中,scoret为使用前t条评论数据的得分,t∈0c,2c,all,分别代表提供0条、2条和全部采集到的评论数据。yia∈0,1,是第i个测试样本属于a类别(真:real、假:fake、无需真假判断:ncw)的ground truth标签;y^a,ti是在使用t条评论内数据的情况下,对第i个测试样本属于a类别的概率估计值。最终得分是score_t的加权求和,权重因子β1=0.5,β2=0.3。N为测试样本数。得分越高,说明模型性能越好,排名则越靠前。