## 大赛介绍 CCF大数据与计算智能大赛（CCF Big Data & Computing Intelligence Contest，简称CCF BDCI）由中国计算机学会于2013年创办，是大数据与人工智能领域的算法、应用和系统大型挑战赛事。大赛面向重点行业和应用领域征集需求，以前沿技术与行业应用问题为导向，以促进行业发展及产业升级为目标，以众智、众包的方式，汇聚海内外产学研用多方智慧，为社会发现和培养了大量高质量数据人才。大赛迄今已成功举办十一届，累计吸引全球25个国家，1500余所高校、1800余家企事业单位及80余所科研机构的20万余人参与，已成为中国大数据与人工智能领域影响力最广、参赛规模最大、成熟度最高的综合赛事之一。 2024年，我们迎来第十二届CCF BDCI，历经十余年深耕细作，我们持续挖掘数据潜能，构建健康数据生态。本届盛会聚焦数字经济前沿技术与人才培育，携手业界精英，共推大数据技术及产业蓬勃发展，开启智能新篇章。本赛题为大赛赛题之一，查看全部赛题可点击进入 **[2024 CCF大数据与计算智能大赛（CCF BDCI）](https://www.datafountain.cn/special/BDCI2024?preview=true)** 官网。 ## 赛题介绍 **• 赛题简介** 对话式检索增强生成 (Conversational RAG) 致力于在多轮对话场景中提升系统的检索增强生成能力。与仅专注于单轮交互的RAG系统相比，多轮Conversational RAG系统需要处理连续对话，动态适应对话的上下文和用户意图的变化，这要求系统具备更高的适应性和灵活性。本赛题旨在推动参赛者在CORAL基准测试数据集上开发和训练自己的对话式检索增强生成模型，以此向更具现实意义的多轮Conversational RAG场景迈进。 **• 赛题背景** 随着大语言模型时代的到来，对话式检索增强生成正逐渐成为新一代检索范式。在工业界，如ChatGPT, Bing Chat, Kimi Chat等已经开始迈入生成式AI的实时数据搜索时代。相较于传统的关键词检索方法，对话式检索增强系统能够基于对话的上下文更精准地把握用户的查询意图，从而提供更准确深入的搜索结果和更连贯且有针对性的回答。在多轮对话中，系统必须处理来自之前交互过程中的冗余信息，并应对话题的突然转变，这要求系统具有更强的上下文理解和适应能力。主要挑战包括： > ▪ 准确的检索结果：系统需要基于对话历史和当前问题，准确理解用户的意图，并提供满足用户信息需求的检索文档。 > ▪ 连贯且有针对性的答案生成：系统需要基于对话历史和检索到的文档，生成满足用户当前信息需求的答案。 > ▪ 引用标注：系统需要准确标注生成答案中的可靠来源，以有效减少模型幻觉。参与这一赛题，选手可以深入掌握对话式检索增强系统的核心机制，并在实践中探索创新的优化策略，推动对话式AI技术的进一步发展。 **• 赛题任务** 参赛者需要选手使用华为开发的MindSpore框架，在CORAL基准测试数据集上开发和训练自己的对话式检索增强生成模型，最终提交对话中每一轮检索得到的相关文档和生成的回答。CORAL数据集的论文链接为[https://arxiv.org/pdf/2410.23090](https://arxiv.org/pdf/2410.23090)，下载地址为[https://huggingface.co/datasets/ariya2357/CORAL](https://huggingface.co/datasets/ariya2357/CORAL)。完成的任务包括但不仅限于: > (1) 对话式文档检索：基于对话历史和当前问题从给定的文档库中检索相关文档，可能涉及对对话历史的建模、选择有效的检索策略等。 > (2) 回答生成：结合对话历史和检索得到的文档生成连贯且有针对性的回答，可以考虑从答案生成的角度对对话历史建模，或者对检索得到的文档去噪。为了保证比赛的公平性，选手推理过程中使用的单个生成模型参数量应不大于8B。 > (3) 引用标注：在提供的回答中标注出引用的检索文档。可以考虑在回答生成的过程中，对答案中的来源进行标注。也可以考虑先生成回答，然后基于回答和检索得到的文档进行标注。 ## 赛题合作 **• 中国人民大学高瓴人工智能学院** **• 昇思MindSpore开源社区** ## 赛程规划该赛题采用初赛、决赛的“二级赛制”，具体赛程安排如下： > **2024/11/22-2024/12/17，初赛阶段** ▪ 2024/11/22，发布大赛赛题，选手可登录大赛官网报名； ▪ 2024/11/22，开启初赛线上评测，选手可在线提交结果文件至竞赛平台，每日每队最多可提交3次，测评系统将自动评测得分并同步更新至排行榜。排行榜上将记录选手的最高成绩，相关团队必须自行保存最高成绩作品的源代码以备审核； ▪ 2024/12/9（12:00），截止报名组队； ▪ 2024/12/10（24:00），截止初赛A榜作品提交； ▪ 2024/12/11，公布B榜测试集，本赛题所有参赛选手务必在12月11日24:00前，在本赛题“赛题数据”页下载B榜测试集； ▪ 2024/12/12（00:00-24:00），初赛B榜作品提交，参赛者可在B榜当天提交3次，但仅以每支团队当天最后一次提交进行评测，决赛入围资格以B榜线上最终成绩为准（B榜排行榜展示的成绩），若团队没有进行B榜提交，则无法晋级后续比赛； ▪ 2024/12/13-12/18，对B榜TOP5团队进行代码复现审核，若前5团队审核不通过或放弃复现，将按照B榜排名顺延联系后面队伍进行复现，最终确认5支通过审核的队伍入围决赛。 > **2024/12/19-2024/12/29，决赛阶段** ▪ 2024/12/19-12/22，决赛答辩材料准备； ▪ 2024/12/23（暂定），单赛题线上决赛答辩评审； ▪ 2024/12/28-12/29，大赛总决赛线下评审、颁奖典礼。备注： **组队及作品提交请在PC端进行操作；** 以上赛程安排均为北京时间计算，赛程时间根据实际情况有调整的可能。 ## 获奖名单 |奖项|获奖团队| |:----:|:----:| |一等奖|丰富的过每一天快乐的看每一天（ID:353724）
拟入围总决赛| |二等奖|steeephone（ID:353270）
Cristiano（ID:353235）| |三等奖|北海以北（ID:354315）
小和山（ID:354375）| ## 奖项设置 **• 赛题奖项** |奖项|数量|奖金（税前）|证书/奖杯| |:----:|:----:|:----:|:----:| |一等奖|本赛题1支团队|人民币20,000元|由CCF颁发的权威证书 & 大赛荣誉奖杯| |二等奖|本赛题2支团队|人民币10,000元/获奖队伍|由CCF颁发的权威证书 & 大赛荣誉奖杯| |三等奖|本赛题2支团队|人民币5,000元/获奖队伍|由CCF颁发的权威证书 & 大赛荣誉奖杯| ▪ 比赛中获得有效成绩的参赛者，比赛结束后可获得电子证书。 ▪ **本赛题由华为特别赞助算力代金券若干，报名成功的队伍可打开链接登录申领（每次申请500元，先到先得）**[https://www.hiascend.com/activities/cloud-resource/16ff639b90f947b9ab7616978a71df07](https://www.hiascend.com/activities/cloud-resource/16ff639b90f947b9ab7616978a71df07) **• 赛事奖项** |奖项|详情|说明| |:----:|:----:|:----:| |CCF BDCI综合奖项|综合特等奖1支（奖金人民币10,000元 & 由CCF颁发的权威证书）
最佳算法能力奖1支（奖金人民币5,000元 & 由CCF颁发的权威证书）
最佳商业价值奖1支（奖金人民币5,000元 & 由CCF颁发的权威证书）
最佳创新探索奖1支（奖金人民币5,000元 & 由CCF颁发的权威证书）|本赛题一等奖获奖团队
可参与该奖项的评审| |CCF BDCI优秀指导老师|CCF BDCI优秀指导老师奖（由CCF颁发的权威证书）|本赛题一等奖获奖团队
指导老师可获得该奖项| |参赛特别奖|参赛过程中将根据参赛团队周榜、邀请等活动可获得特别奖项。|/| |落地与孵化机会|创业孵化：优秀团队可获得由政府、投资机构投提供的融资、孵化支持；
落地应用：优秀团队可获得由大赛各合作单位提供的项目成果应用、试点机会。|/| |特别贡献奖|在大赛组织工作中做出突出贡献的个人或单位可获得。|/| |优秀合作伙伴奖|对大赛组织做出重要支持的合作单位可获得。|/| ## 交流社群 ![对话式检索增强生成.jpg](https://competition-oss.datafountain.cn/dfadminwebsite-production/uploads/admin/editor/2024-11-21/%E5%AF%B9%E8%AF%9D%E5%BC%8F%E6%A3%80%E7%B4%A2%E5%A2%9E%E5%BC%BA%E7%94%9F%E6%88%90-194377.jpg) ## 参赛规则 **报名组队** > **参赛人群**：大赛面向全球征集参赛团队，不限年龄、国籍，高校、科研院所、企业从业人员等均可登录官网报名参赛； > **报名要求**：参赛选手可报名不同赛道多个赛题，但在同一赛题中仅能报名参加一支团队。报名时所有团队成员需提供个人基本信息，并进行实名认证；参赛选手应当保证身份信息的真实性。大赛组委会承诺其中涉及个人隐私的内容予以保密； > **组队要求**：所有报名参加同一赛题的参赛者，可进行组队操作。所有参赛选手应在截止日期前自行完成组队，每队1-5人，不可重复组队。并以团队身份提交各阶段的作品材料，一旦进入团队，不可退出队伍。为保证每支参赛团队享有相对平等的提交机会，各赛题组队需满足组队成员在赛题中的提交总次数≤开赛天数*赛题每天提交次数； > **队长责任制**：各团队队长作为团队的负责人，需自行进行团队内部分工和协调，并承担与大赛组委会对接沟通（包括但不限于晋级入围、团队信息收集、作品审核、线下活动、奖金发放等）的责任； > **回避原则**：大赛出题的人员及所在部门人员禁止参与所出具的赛题（可参与其他赛题），直接参与大赛策划、组织、技术服务的工作人员等相关人士禁止参赛，禁止委托他人参赛或违规指导参赛团队。 **作品要求** > **作品原创**：参赛作品必须保证原创性，不违反任何中华人民共和国有关法律法规，不侵犯任何第三方知识产权或其他权利，一经发现或经权利人提出并查证，大赛组委会将取消其比赛资格和成绩并进行严肃处理； > **作品知识产权**：参赛作品（包含但不限于算法、模型、方案等）知识产权归出题单位、参赛者、官方竞赛平台三方共享，大赛组织单位拥有对参赛作品组织投资对接和产品孵化服务的优先权利；大赛组织方及竞赛平台均有权利将参赛作品、比赛信息、参赛团队信息用于宣传品、相关出版物、制定及授权媒体发布、官方网站浏览及下载、展览（含巡展）等活动项目； > **竞赛数据说明**：组委会授权参赛人员使用提供的数据进行指定比赛的模型训练工作，参赛人员不得将数据用于任何商业用途。若做科研使用，请注明数据来源于相关数据提供单位； > **作品合规性**：参赛团队需保证提交作品的合规性，若出现下列或其他重大违规的情况，经大赛组委会合议后，取消参赛团队的参赛资格和成绩，获奖团队名单依次顺延。重大违规情况如下：1）使用小号、串通、剽窃他人代码等涉嫌违规、作弊行为；2）不经允许使用外部数据；3）团队提交的材料内容不完整，或提交任何虚假信息；4）参赛团队无法就作品疑议进行足够信服的解释说明；5）提交的作品包含不健康、淫秽、色情或诽谤任何第三方的内容等其他重大违规行为。 **评审规则** > **评审条件**：所有符合资格的参赛团队在初赛截止日期前所提交的作品均会纳入评审。大赛组委会不对任何因电脑、互联网、移动网络故障而造成的参赛作品损坏、缺失、提交延时等后果承担责任； > **公平竞技**：参赛团队禁止在指定考核技术能力的范围外，利用规则漏洞或技术漏洞等不良途径提高成绩与排名，禁止在比赛中抄袭他人作品、交换答案、使用多个小号，一经发现将取消比赛成绩并严肃处理； > **评审方向**：大赛组委会将组织评审专家对作品进行评审，包括但不限于作品的成熟度、先进性、创新性、实用性、普适性、社会效益、商业价值等因素； > **作品复现及验证**：参赛选手需要配合大赛组委会对比赛作品的有效性与真实性进行验证，同时自行检查提交作品的正确性，确认无误后再进行提交，大赛组委会不负责对比赛作品进行更改和调整； > **评审结果确认**：大赛专家委员会对作品的评审结果一旦给出则为最终结果，不另对评审结果给出反馈意见。 **通知和获奖** > **选手通知**：大赛组委会将通过参赛团队预留的联系方式邀请参赛团队参与大赛各项活动，若参赛团队在相关通知发出后3日内未答复，则视为自动放弃相应机会，主办方有权顺位递补其他参赛团队； > **奖金纳税**：所有获奖的参赛团队将得到相应比赛奖金（奖金以人民币计算）或配套基金，奖金个人所得税或其他形式税费将由获奖者承担，由大赛组委会代缴； > **奖金分配**：获奖团队的奖金统一发放给团队队长，团队队长应自行负责在其成员之间分配和分发奖金与奖品，主办方对此将不承担任何责任。 **组织方权利** > 大赛组委会保留拒绝某人、某团队参赛或提交作品的权利； > 大赛组委会拥有对比赛违规、作弊行为的判定权利和处置权利，对影响比赛组织及比赛公平性的参赛团队，大赛组委会保留收回或拒绝授予其奖项、奖金的权利； > 若因故出现数据更新、评审代码更新、作弊检查等原因，大赛组委会有权对参赛结果进行重新测评并更新排行榜； > 大赛组委会保留修改比赛各环节时间，包括但不限于作品提交截止日期、线上线下活动日期以及路演、颁奖典礼日期的权利； > 大赛组委会保留调整比赛各阶段入围团队数量的权利，调整奖项设置及奖金数额的权利，收回或拒绝授予某个特定参赛团队奖项、奖金的权利； > 大赛组委会保留对比赛规则进行调整修改的权利，大赛主办方拥有对大赛的最终解释权。 ## 组织结构 **• 主办单位** 中国计算机学会 **• 承办单位** CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF高性能计算专业委员会、CCF计算机安全专业委员会、CCF计算机应用专业委员会、CCF人工智能与模式识别专业委员会、易班网、LandInn清研兰亭 **• 金牌赛题合作** 蚂蚁技术研究院、联通数据智能有限公司、昇思MindSpore开源社区、中国人民大学高瓴人工智能学院 **• 银牌赛题合作** 吉林农业大学-中农阳光数智化农业新质生产力研发中心、北京算能科技有限公司、北京东方国信科技股份有限公司、英特尔(中国)有限公司 **• 官方竞赛平台** LandInn清研兰亭、DataFountain数联众创