

Antique Performance optimization others
2020/10/13 10:44:49 data
(Data can be downloaded after registration) 训练集 - MD5: E6FCB2F8DF7DC7D61F2BAA1473C443B0
2020/10/13 09:55:54 data
(Data can be downloaded after registration) 测试集 - MD5: AE225F5BC00BFF799E373E5CDE8C1EB2
2020/10/13 10:44:39 submit sample
(Data can be downloaded after registration) 提交样例 - MD5: DE8F871A4D23421FCE60C1482AFCC4AF
在此任务中,我们将提供给参赛者一系列真实场景下的性能监控数据,参赛者可针对训练数据做特征工程及建模,预测未来一段时间的工作负载情况。为了简化任务,本赛题挑选两个在生产环境较为重要的指标作为评测标准:CPU的利用率和队列中的Job数。
1.数据背景
本次赛题数据来自华为云数据湖探索(Data Lake Insight,简称DLI),它是一个Serverless的弹性大数据分析服务。对于用户来说,提交SQL/Spark/Flink 作业需要购买队列(Queue),并将作业指定到购买的队列中执行。队列(Queue)的概念可以认为是资源的容器,它在作业真实执行时是一个计算集群,队列存在不同的规格,单位是CU(计算单元Compute Unit),1CU等于1核4GB,即16CU的队列代表着总资源16核64GB的计算集群。数据每5分钟会进行一次采集,赛题假设集群内节点间的任务调度平均,数据中的CPU_USAGE是集群中各节点平均值。更多详情可访问https://www.huaweicloud.com/product/dli.html进行试用体验:)
2.训练集
选取了43个队列的性能采集数据作为训练数据,每个队列之间相互独立。
3.测试集
对于每行测试数据,赛题会给定该队列在某时段的性能监控数据(比如9: 35– 10:00),希望参赛者可以预测该点之后的未来五个点的指标(10:00 – 10:25),详情可参看提交示例。
注意:不可使用测试数据的结果作为训练数据!
4.字段说明:
训练集
字段 | 类型 | 说明 |
---|---|---|
QUEUE_ID | INT | 队列标识,每个ID代表一个唯一的队列 |
CU | INT | 队列规格,不同规格的资源大小不一样。1CU为1核4GB。 |
STATUS | STRING | 队列状态,当前队列的状态是否可用 |
QUEUE_TYPE | STRING | 队列类型,不同类型适用于不同的任务,常见的有通用队列(general)和SQL队列 |
PLATFORM | STRING | 队列平台,创建队列的机器平台 |
CPU_USAGE | INT | CPU使用率,集群中各机器节点的CPU平均使用率 |
MEM_USAGE | INT | 内存使用率,集群中各机器节点的内存平均使用率 |
LAUNCHING_JOB_NUMS | INT | 提交中的作业数,即正在等待执行的作业 |
RUNNING_JOB_NUMS | INT | 运行中的作业数 |
SUCCEED_JOB_NUMS | INT | 已完成的作业数 |
CANCELLED_JOB_NUMS | INT | 已取消的作业数 |
FAILED_JOB_NUMS | INT | 已失败的作业数 |
DOTTING_TIME | BIGINT | 采集时间,每5分钟进行一次采集 |
RESOURCE_TYPE | STRING | 资源类型,创建队列的机器类型 |
DISK_USAGE | INT | 磁盘使用 |
初赛阶段各参赛者将预测结果写入CSV文件中,后台自动对结果进行测评。
要求:
(1)csv结果提交:提交测试文本文件里面每一个测试的预测结果;
(2)提交结果文件请严格按照example_result.csv的文件行顺序;
(3)提交文件编码必须为UTF8无Bom的编码。
初赛阶段各参赛者将预测结果写入CSV文件中,后台自动对结果进行测评。
要求:
csv结果提交:提交测试文本文件里面每一个测试的预测结果;
提交结果文件请严格按照example_result.csv的文件行顺序;
提交文件编码必须为UTF8无Bom的编码。
初赛和复赛提交CSV文件,使用UTF-8编码格式。其中,每个Point的格式是(CPU_USAGE, LAUNCHING_JOB_NUMS),赛题要求选手能预测未来5个点的Point数据。提交的字段格式样例如下:
Example
ID, POINT1, POINT2, POINT3, POINT4, POINT5
1, (20, 1), (40, 2), (60, 3), (80, 4), (100, 5)
2, (20, 1), (40, 2), (60, 3), (80, 4), (100, 5)
3, (20, 1), (40, 2), (60, 3), (80, 4), (100, 5)
4, (20, 1), (40, 2), (60, 3), (80, 4), (100, 5)
5, (20, 1), (40, 2), (60, 3), (80, 4), (100, 5)
…
在测试数据中,ID为每个测试数据的行号,参赛者需要按照指定格式将数据按行数据写入csv文件中。预测结果需为非负整数。
本赛题在线评分采用绝对误差作为评估指标,首先单独计算每个测试用例的误差值:
上式中cpuUsage会被换算成百分比进行计算,比如预测值为89,计算时是0.89;当launching的最大值为0时,表示预测和实际提交的JOB数均为0,该项结果为0。之后会计算单个测试点的总误差: