2024mathorcup大数据竞赛选题建议及思路来啦!
大家好呀,2024 年MathorCup数学应用挑战赛——大数据竞赛今天下午开赛啦,在这里先带来初步的选题建议及思路。
目前团队正在写B题完整论文,后续还会持续更新哈,大家三连关注一下防止迷路。
精力有限,以下只是简略的图文版初步思路,更详细的视频版完整讲解请移步:
2024mathorcup大数据竞赛选题建议及AB题详细思路!_哔哩哔哩_bilibili
首先是主基调:
本次mathorcup大数据竞赛推荐大家选择B题目。
A如果想做好的话,数据量很大,而且匹配和清洗数据很麻烦,只推荐有相关经验或者数据处理能力很出色的队伍选择,除此之外推荐选择B题目,B是比较经典的数据分析+优化类题目,主要做时间序列预测和整数规划,求解思路很确定。大家到时候直接运行我给的python代码即可,不需要你配环境,我会录制怎么运行的视频,无脑运行,很简单。
本次比赛,我们预计会在10.27日下午前更新完毕B完整成品
接下来开始思路具体讲解:
Mathorcup大数据竞赛思路
赛道 A:台风的分类与预测
问题1:台风特征参数与气温、气压、季风的关系,建立台风的分类评价模型
建模思路
1. 数据准备:
o 从提供的数据集中获取台风的特征数据(例如强度、等级、风速、生成时间等)。
o 获取影响台风生成和运动的气象数据,包括气温、气压、季风数据等。
o 数据可能来自多种来源,因此需要进行数据的清洗和特征提取。
2. 特征提取与预处理:
o 提取特征参数,如台风的最大风速、持续时间、路径长度等。
o 气象数据如气温、气压、季风强度等也作为影响因素,需要根据台风生成时间匹配相关的气象数据。
o 使用标准化(Normalization)或归一化(Standardization)来处理这些特征,以使模型收敛更快。
3. 特征选择:
o 使用相关性分析(例如皮尔逊相关系数)筛选与台风分类相关性较高的气象因素。
o 可以采用降维方法,如主成分分析(PCA)来减少特征维度,以提高模型的计算效率。
4. 模型构建:
o 聚类分析:采用无监督学习的方法(如K-means或层次聚类),对台风进行分类。通过对台风的特征数据进行聚类,可以得到台风的不同类型。
o 分类模型:可以使用监督学习的方法,如决策树、随机森林或者支持向量机(SVM)来对台风进行分类。在建立模型时使用部分历史台风数据进行训练,并根据气温、气压、季风等输入进行预测。
5. 模型评价与划分标准:
o 根据台风的分类结果,分析每一类台风的特征,并结合已有的台风等级标准明确划分的依据。
o 使用混淆矩阵、F1分数等评价分类模型的效果。
6. 结果输出与分析:
o 根据模型的预测结果,将2024年7月和9月的台风进行分类,给出每个台风的类别及其途经省份。
o 对比夏台风和秋台风,分析两者在特征上的差异,例如夏台风是否更强,秋台风的路径是否更加曲折等。
问题2:台风路径预测模型
建模思路
1. 数据准备:
o 台风的历史路径数据,以及气温、气压、洋流、风场等数据。
o 将台风路径数据和气象数据进行整合,对每一个时间节点(例如每小时或每天)记录台风位置及相关的气象参数。
2. 特征提取与预处理:
o 对每个时间节点提取特征,包括台风中心的气压、风速、温度、洋流方向和速度、风场等信息。
o 使用插值等方法将缺失的数据进行补全。
3. 路径预测模型:
o 基于多元回归的预测模型:可以采用多元线性回归、支持向量回归(SVR)或者LSTM(长短期记忆网络)等模型,预测台风在下一时刻的经纬度位置。
o 神经网络模型:考虑到路径的时间序列特性,使用循环神经网络(RNN)或者LSTM可以更好地捕捉台风路径的动态变化。
4. 动态时间规整(DTW)对比:
o 利用DTW算法将预测的路径和实际路径进行匹配,以评估模型的效果。
o 计算DTW距离,DTW距离越小,表示预测的路径与实际路径越接近。
5. 模型评价与优化:
o 使用误差指标,如均方误差(MSE)和平均绝对误差(MAE),来评估模型的预测精度。
o 根据历史数据进行模型的迭代训练和参数优化,以提高路径预测的精度。
6. 结果输出:
o 给出台风贝碧嘉的预测路径,并填写在表格中。
o 对比预测路径和实际路径,分析预测模型的有效性,并讨论可能导致预测误差的因素。
赛道 B:电商品类货量预测及品类分仓规划
问题 1:建立货量预测模型
建模思路
1. 数据预处理
o 数据清洗:首先将附件1中的历史库存量和销量数据进行数据清洗,去除异常值和缺失值的影响。
o 特征工程:考虑提取季节性特征、节假日、促销信息等可能影响库存和销量的因素。例如月份特征、周期性波动特征等。
o 时间序列建模:由于库存量和销量数据都是时间序列数据,我们可以使用时间序列预测模型,如ARIMA、LSTM、Prophet等方法。
2. 库存量预测
o 选择模型:可以选择使用时间序列模型,如ARIMA模型,来捕捉月度库存量的趋势和季节性变化。
o 训练模型:使用历史库存量数据来训练模型,通过自动选择模型参数(p,d,q)来最小化误差。
o 月均库存量预测:对未来3个月的库存量进行月度预测,以预测的平均值作为月均库存量。
3. 销量预测
o 时间序列模型:销量的预测可以采用LSTM模型捕捉每天销量的波动,因为LSTM可以较好地学习长时间的依赖关系。
o 日销量预测:对未来90天的销量进行逐日预测,利用历史数据中的每日销量,结合外部特征(如促销日期、季节因素等)提升预测准确性。
4. 模型评价
o 误差评估:使用均方误差(MSE)、平均绝对误差(MAE)等评估预测结果的准确性。
o 交叉验证:将数据分为训练集和测试集,进行多次交叉验证,以确保模型的泛化能力。
5. 结果输出
o 输出月库存量预测结果,填写到表1中,输出每日销量预测结果,填写到表2中,并存储至相应的Excel表格中。
OK,上述思路的文档领取、视频讲解以及后续的完整成品论文预定请点击我的下方个人卡片查看↓: