基本信息
文件名称:A2401090妈妈杯大数据数学建模一等奖.pdf
文件大小:7.27 MB
总页数:45 页
更新时间:2025-10-18
总字数:约9.38万字
文档摘要

队伍编号MCB2401090

赛道(A)

基于集成机器学习模型对台风的分类与路径预测研究

摘要

由于台风的成因复杂,其运动轨迹和影响因素之间存在高度非线性关系,使得台风

的预测和分类成为一项极具挑战性的任务。为此本文针对台风的分类与预测的问题展开

分析,依据相关性分析模型、混合聚类算法、集成机器学习模型、DTW动态时间规整算

法、Stacking融合技术和多元回归模型等方法,通过Python、SPSSPRO、MATLAB、

Lingo和SPSS等软件解决了台风类别划分、台风的路径以及登陆台风的中心风力和降水

量预测等问题,旨在更好地理解不同类型台风的特点,提高台风路径预测的准确性,为

防灾减灾提供科学依据。

为提高数据的精度,本文首先对1945-2023年中国近海台风路径数据进行了清理与预

处理。数据清理包括缺失值处理、不平衡样本调整等方法,采用了分箱、插值和标准化

等数据处理手段,以优化数据结构。针对数据不平衡问题,采用了SMOTE过采样,以提

高分类模型的识别效果,为后续研究台风路径预测及其分类奠定了数据基础。

针对问题1,台风类别划分问题。本文首先通过分析台风特征参数与环境因素的关系,

建立台风特征的相关性分析模型,对环境因素的影响程度显著性指标进行加权筛选。其

次,基于加权筛选的指标,结合混合聚类算法构建台风分类评价模型。然后以2024年7

月和9月登陆我国的台风为例,预测并列出划分的台风类别及其途经的省份(见表12),

最后分析夏台风与秋台风的区别,显示出季节差异对台风路径及强度的显著影响。

针对问题2,台风路径的预测。本文利用集成机器学习模型,结合气温、气压等多个

环境因素,通过GBDT、XGBoost和RUSBoost等模型进行台风路径的回归预测,得到台

风贝碧嘉在2024年9月13日-17日每日14点的中心位置坐标(见表16)。并使用Stacking

融合技术提升预测精度。为验证模型的准确性,通过DTW动态时间规整算法将预测路径

与台风贝碧嘉的实际路径进行了相似度对比分析,结果表明模型在路径预测中具有较好

的泛化能力和实用性。

针对问题3,登陆台风的中心风力和降水量预测。本文首先通过搜集台风贝碧嘉登陆

后的历史降水量资料,然后根据台风在登陆后的行进过程中降水量及风速的关系,及降

水量与距台风中心距离的关系,建立多元回归模型。然后结合问题二构建的集成机器学

习模型,预测2024年9月16日-18日登陆台风贝碧嘉在行进途中的中心风力及降水量

(见表18)。最后对预测模型和结果进行敏感度分析和稳健性检验,检验其拟合优度判断

模型对原有数据的识别能力。

关键词:台风分类;路径预测;集成机器学习;混合聚类算法;Stacking融合

目录

一、问题重述1

1.1问题背景1

1.2需解决的问题1

二、问题分析2

2.1问题一的分析2

2.2问题二的分析2

2.3问题三的分析2

三、模型假设3

四、符号说明3

五、数据的预处理4

5.1台风相关背景知识及划分标准4

5.1.1台风相关背景知识4

5.1.2台风的划分标准5

5.2样本数据的预处理5

5.2.1数据资料来源5

5.2.2数据指标字段说明6

5.2.3描述性统计6

5.2.4缺失值探索7

5.3数据集特征探索7

5.3.1台风发生的位置信息探索8

5.3.2台风的气压信息探索8

5.3.3台风的运动方向信息探索9

5.3.4台风的移动速度信息探索9

5.4样本数据的结构优化10