

Arithmetic Regression prediction Traffic
2018/07/17 16:21:16 data
(Data can be downloaded after registration) 【样例数据下载-3.27版】驾驶行为预测驾驶风险-平安产险
2018/07/17 16:21:16 data
(Data can be downloaded after registration) 【程序样例文件-3.28版】驾驶行为预测驾驶风险-平安产险
2018/07/17 16:21:16 data
(Data can be downloaded after registration) 【文献参考-3.27版】Gini指标参考
2018/07/17 16:21:16 data
(Data can be downloaded after registration) 【参赛者开源baseline-poteman & xgqiang】评分0.10617
本次比赛使用由平安产险抽样的1分钟级驾驶行为数据,参赛队伍需要对其进行数据挖掘和必要的机器学习训练。
训练程序中需要指定数据集,数据集路径为:
训练数据集路径为: /data/dm/train.csv
测试数据集路径为: /data/dm/test.csv
文件格式为:csv
train文件列表:train.csv
test文件列表:test.csv
数据字段说明:
字段名 | 字段含义 | 说明 |
---|---|---|
TERMINALNO | 用户id | 用户唯一标志 |
TIME | unix时间戳 | 从1970年1月1日(UTC/GMT的午夜)开始所经过的秒数,不考虑闰秒 |
TRIP_ID | 行程id | 用户行程唯一标志 |
LONGITUDE | 经度 | 用户行程目前所在经度 |
LATITUDE | 纬度 | 用户行程目前所在纬度 |
DIRECTION | 方向(角度) | 用户行程目前对应方向,正北为0,顺时针方向计算角度(如正东为90、正南为180),负值代表此时方向不可判断 |
HEIGHT | 海拔(m) | 用户行程目前所处的海拔高度 |
SPEED | 速度(km/h) | 用户行程目前的速度 |
CALLSTATE | 电话状态 | 用户行程目前的通话状态。(0,未知 1,呼出 2,呼入 3,连通 4,断连) |
Y(test不含) | 客户赔付率 | 客户赔付情况,为本次建模的目标Y值。(test中不含此字段) |
参赛者报名比赛后可在本竞赛页面看到“数据下载”窗口,未报名为不可见状态,数据正式上线后(2018年3月27日)可下载。
1、【训练数据下载-3.27版】驾驶行为预测驾驶风险-平安产险
说明:第一版训练数据,用于算法模型训练;
更新时间:2018年3月27日,00:00
2、【程序样例文件-3.28版】驾驶行为预测驾驶风险-平安产险
说明:第二版程序样例,用于提交测试验证;
更新时间:2018年3月28日,19:40
3、【文献参考-3.27版】Gini指标参考;
说明:第一版文献参考,评分相关;
更新时间:2018年3月27日,00:00
本次竞赛初赛评价指标使用Gini系数: Gini = A+BA
计算逻辑
1、使用选手预测结果Pred升序排序;
2、计算累加保费cum_eprem和累加赔款cum_inc;
3、计算总保费sum_eprem和总赔款sum_inc;
4、计算以(cum_eprem/sum_eprem)为x和(cum_inc/sum_inc)为y的曲线下的面积(即图中B的面积)。
5、Gini = A+BA
关于Gini指标计算文献请参考“数据下载”(报名后可查看)
答辩规则
进入决赛答辩环节后, 专家进行打分评判。
提交内容
程序启动主入口
程序的主入口文件为main.py,请确定建模程序可以通过python main.py启动。
日志输出规范
日志统一使用print()输出日志。
日志大小应小于5K
注:不使用print输出时,平台不会返回相关日志信息。
建模程序需要指定结果的输出目录,把结果文件输出到主目录下的model文件下。如model/xx.csv,有且只能有一个文件并且是CSV格式
注:必须输出结果文件,没有结果输出就没有得分。
输出csv文件格式:
Id | Pred |
---|---|
Id1 | 0.023 |
Id2 | 0.473 |
Id3 | 3.842 |
Id4 | 1.187 |
…… | …… |
注:只有两列,一列Id为用户Id,一列Pred为预测结果(请注意大小写)。
CSV文件大小应小于5Mb
(test中为客户分钟级数据,输出预测值时请注意ID去重)
python版本说明:
python版本为Python 3.6.1
支持包列表:
absl-py (0.1.11)
astor (0.6.2)
bleach (1.5.0)
boto (2.48.0)
boto3 (1.6.16)
botocore (1.9.16)
bz2file (0.98)
catboost (0.8.1.1)
certifi (2018.1.18)
chardet (3.0.4)
chinesecalendar (1.0.6)
cycler (0.10.0)
docutils (0.14)
gast (0.2.0)
gensim (3.4.0)
geojson (2.3.0)
geopy (1.11.0)
gps3 (0.33.3)
grpcio (1.10.0)
html5lib (0.9999999)
h5py(2.7.1)
idna (2.6)
imblearn (0.0)
jmespath (0.9.3)
Keras (2.1.5)
kiwisolver (1.0.1)
lightgbm (2.1.0)
Markdown (2.6.11)
matplotlib (2.2.0)
mlxtend (0.11.0)
numpy (1.14.1)
pandas (0.22.0)
Pillow (5.0.0)
pip (9.0.3)
protobuf (3.5.2)
pyparsing (2.2.0)
python-dateutil (2.6.1)
pytz (2018.3)
PyYAML (3.12)
requests (2.18.4)
s3transfer (0.1.13)
scikit-learn (0.19.1)
scipy (1.0.0)
setuptools (28.8.0)
six (1.11.0)
smart-open (1.5.7)
statsmodels (0.8.0)
tensorboard (1.6.0)
tensorflow (1.3.0rc1)
tensorflow-tensorboard (1.5.1)
termcolor (1.1.0)
tflearn (0.3.2)
Theano (1.0.1)
torch (0.3.1)
torchvision (0.2.0)
Werkzeug (0.14.1)
wheel (0.30.0)
xgboost (0.7.post3)
提交格式
打包规范如下:需要对建模程序进行打包。
在程序主目录外面打包,并且需打成zip格式文件,zip内有且只能有一个文件夹,如: df_test0209_01, 否则会返回错误
如下图所示:
其中df_test0209_01下为建模程序,18020900001.zip为打包好的待提交的建模程序文件。
18020900001.zip的目录层级为:
提交样例
报名比赛后可在本竞赛页面看到“数据下载”窗口,未报名为不可见状态。