2025中国高校计算机大赛——大数据挑战赛(以下简称“大赛”)由清华大学、大数据系统软件国家工程研究中心主办,由上海和今信息科技有限公司提供竞赛平台支持。大赛是以实际数据为基础、面向全球开放的高端算法竞赛。大赛旨在通过竞技的方式,提升人们对数据分析与处理的算法研究与技术应用能力,探索大数据的核心科学与技术问题,尝试创新大数据技术,推动大数据的产学研用。现组织我校本科及研究生在校学生参赛,具体事项通知如下:
赛题描述—基于历史数据预测未来股价涨跌
本次竞赛的目标是基于沪深300指数成分股的历史股价数据,通过建立机器学习模型来预测未来股价涨跌幅最大和最小的股票。选手需通过构建模型、训练和调优,预测并输出给定数据后一天沪深300指数成分股的涨跌幅最大和最小各10支股票,以此进行排名。
1. 比赛数据
1.1 训练数据(train.csv)
a)数据时间范围:2015年4月20日至2025年4月20日
b)数据包含字段:股票代码、日期、开盘价、收盘价、最高价、最低价、成交量、成交额、换手率等。
数据示例:
选手可以使用这个数据训练模型,预测未来的股票涨跌。
1.2 推理数据(test.csv)
a)数据时间范围:2015年4月20日至2025年4月25日
b)数据包含字段:股票代码、日期、开盘价、收盘价、最高价、最低价、成交量、成交额、换手率等。
数据示例:
选手需基于此数据输出股市涨跌的预测。
1.3 实际结果数据(check.csv)
a)数据时间范围:2025年4月28日
b)数据包含字段:涨幅最大和最小股票的代码各10支(共20支)
数据示例(涨幅数值从大到小序):
2. 提交结果
选手的任务是基于train.csv训练模型,基于test.csv数据,输出预测结果result.csv(UTF-8编码,格式同check.csv),并与check.csv比对,计算排名分数。
3. 评估标准
3.1 计算F1分数:
- 精度(Precision):对于前10只预测股票中,实际在前10名的股票的比例。
- 召回率(Recall):实际前10只股票中被预测正确的比例。
- F1分数的计算如下:
- 对于涨跌幅最大的10只股票:
- 对于涨跌幅最小的10只股票:
3.2 排名相关性(Rank Correlation):
- 排名相关性考虑预测股票在结果中的排序位置与实际结果排序的接近度。这里我们使用Spearman秩相关系数来衡量排名的一致性。通过比较实际与预测股票的顺序,计算其相关性。
- Spearman秩相关系数公式:
其中di为第 i 个预测股票与实际股票在排序中的排名差,最大记为N,N 为股票的总数(这里取10)。
- 排名相关性计算:
- 对于涨跌幅最大的10只股票:
- 对于涨跌幅最小的10只股票:
3.3 最终得分:
4. 其他说明
1. 本项比赛可以使用开源且可免费获取的数据集,但必须在提交结果中说明开源数据以及获取来源;
2. 可以使用开源预训练模型,该预训练模型需满足下列条件之一:
a)使用非商业化公开数据集训练得到的预训练模型;
b)已经在2025年5月1日前,在学术期刊、会议(不含arxiv)、各大平台(如Pytorch,Tensorflow,Github等)发表的公开预训练模型;
3.模型的可复现性以及创新性将会作为参考指标。
4.线上赛C阶段,竞赛平台系统将更换数据集(格式不变)如下:
a)训练数据(train.csv)时间范围:2015年4月20日至2025年7月18日
b)推理数据(test.csv)时间范围:2015年4月20日至2025年7月25日
c)最终实际结果数据(check.csv)包含7月28日股市涨跌幅最大和最小股票各10支的代码。
具体赛题描述详见:http://nercbds.tsinghua.edu.cn/bdc/stms.html
本次大赛分为报名&组队、线上赛和决赛等三个阶段,其中线上赛均由参赛队伍下载数据在本地进行算法设计和调试,并通过大赛报名官网提交结果文件及模型代码;决赛要求参赛者进行现场演示和答辩。
1.报名&组队(5月20日– 7月15日)
参赛选手须在竞赛平台报名并且组队参赛(即使单人参赛也要组建单人队伍),大赛不收取任何报名费用。大赛报名系统开放时间为北京时间2025年5月20日10:00,截止时间为北京时间2025年7月15日中午12:00。
报名方式:登录竞赛平台(https://www.heywhale.com/u/2025BDC),完成个人信息注册,即可报名参赛;
每个选手可单人成队或2-3人组队参赛;
参赛队伍(包括队长及全体队伍成员)需要在竞赛平台完成实名认证,未完成认证的队伍将无法参加正式比赛。
大赛官方渠道主要包括:
大赛官网:https://nercbds.tsinghua.edu.cn/bdc.html
竞赛平台:https://www.heywhale.com/u/2025BDC
大赛邮箱:data@tsinghua.edu.cn
大赛QQ群:758344321/762146461 / 901317172
报名截止之后,不再允许添加或更改任何队伍成员。如有中途退出情况,只允许在参赛队伍内部更换队长或删除队员。参赛队伍须应在决赛开始前向大赛组委会提交成员更换申请,由参赛队伍全部成员亲笔签名,经由大赛组委会审核后变更生效。
2.线上赛(5月20日–7月20日)
参赛队伍可从竞赛平台下载数据,在本地进行算法调试,并在线提交结果及模型代码。若参赛队伍在一天内多次提交结果,新结果版本将覆盖旧版本。
线上赛A阶段:5月20日10:00 – 7月18日20:00,每个参赛队伍每天可以进行2次结果提交,系统立即进行评测并返回成绩。排行榜实时进行更新,将选择参赛队伍在本阶段的历史最优成绩进行排名展示。请确保结果可复现。
线上赛B阶段:7月19日 – 7月20日23:59,每个参赛队伍提交整理好的模型代码,要求详见“代码规范”。
线上赛C阶段:7月28日开始,系统将在7月28日20:00更换训练数据和推理数据,并运行选手模型代码获得结果文件进行计算排名展示。
线上赛结束后,排名前70名的参赛队伍以及排名在71-110之间前30支学生队伍将进行代码审核。组委会将审核并剔除没有机器学习算法贡献的队伍,并取消存在违反比赛规定队伍的比赛资格,空缺名额不再替补。所有通过审核的队伍将获得线上赛名次证书。
3.决赛(8月中下旬)
决赛将以现场答辩会的形式进行,具体要求和安排另行通知。受邀参加决赛的选手在决赛期间的食宿由大赛组委会负责,其他费用自理。
1.每个参赛队可以通过竞赛官方网站(http://nercbds.tsinghua.edu.cn/bdc)或“可赛”微信小程序完成报名。
竞赛负责人:徐老师
咨询邮箱:workbjut@163.com
2. 参赛资格要求:参赛对象为我校在籍本科生及研究生。
大赛的奖金池总额为5万元人民币,所有奖金均为税前金额。
1.线上赛奖项(以大赛官网线上赛最终排行榜为准)
线上赛通过代码审核的100支队伍将颁发线上赛名次证书。
2.决赛奖项(以大赛官网决赛结果为准)
奖励对象 |
数量 |
奖励办法 |
决赛第1名队伍 |
1 |
奖金2万元,决赛名次证书 |
决赛第2名队伍 |
1 |
奖金1万元,决赛名次证书 |
决赛第3名队伍 |
1 |
奖金0.8万元,决赛名次证书 |
决赛第4-6名队伍 |
3 |
奖金0.4万元,决赛名次证书 |
3.在校学生队伍奖项
在校学生队伍要求所有参赛队员必须全部为在校学生,如果队伍中有一名在职人员,则整个队伍视为在职人员队伍。其中中国大陆在校学生提供学信网的教育部学籍在线验证报告编号进行身份验证,其余学生提供相关在读证明进行身份验证,在校学籍以2025年5月30日为准。
奖项名称 |
数量 |
对象 |
全国一等奖 |
5 |
单独排名第1-5名 |
全国二等奖 |
10 |
单独排名第6-15名 |
全国三等奖 |
15 |
单独排名第16-30名 |
此奖项仅颁发给在校学生队伍,要求队伍通过代码审核,并根据在校学生队伍成绩的单独排名结果进行颁发。
大赛通知细则详见附件。
、 太阳成集团tyc7111cc
太阳成集团教务处
2025年6月25日