队伍编号MCB2401090
赛道(A)
基于集成机器学习模型对台风的分类与路径预测研究
摘要
由于台风的成因复杂,其运动轨迹和影响因素之间存在高度非线性关系,使得台风
的预测和分类成为一项极具挑战性的任务。为此本文针对台风的分类与预测的问题展开
分析,依据相关性分析模型、混合聚类算法、集成机器学习模型、DTW动态时间规整算
法、Stacking融合技术和多元回归模型等方法,通过Python、SPSSPRO、MATLAB、
Lingo和SPSS等软件解决了台风类别划分、台风的路径以及登陆台风的中心风力和降水
量预测等问题,旨在更好地理解不同类型台风的特点,提高台风路径预测的准确性,为
防灾减灾提供科学依据。
为提高数据的精度,本文首先对1945-2023年中国近海台风路径数据进行了清理与预
处理。数据清理包括缺失值处理、不平衡样本调整等方法,采用了分箱、插值和标准化
等数据处理手段,以优化数据结构。针对数据不平衡问题,采用了SMOTE过采样,以提
高分类模型的识别效果,为后续研究台风路径预测及其分类奠定了数据基础。
针对问题1,台风类别划分问题。本文首先通过分析台风特征参数与环境因素的关系,
建立台风特征的相关性分析模型,对环境因素的影响程度显著性指标进行加权筛选。其
次,基于加权筛选的指标,结合混合聚类算法构建台风分类评价模型。然后以2024年7
月和9月登陆我国的台风为例,预测并列出划分的台风类别及其途经的省份(见表12),
最后分析夏台风与秋台风的区别,显示出季节差异对台风路径及强度的显著影响。
针对问题2,台风路径的预测。本文利用集成机器学习模型,结合气温、气压等多个
环境因素,通过GBDT、XGBoost和RUSBoost等模型进行台风路径的回归预测,得到台
风贝碧嘉在2024年9月13日-17日每日14点的中心位置坐标(见表16)。并使用Stacking
融合技术提升预测精度。为验证模型的准确性,通过DTW动态时间规整算法将预测路径
与台风贝碧嘉的实际路径进行了相似度对比分析,结果表明模型在路径预测中具有较好
的泛化能力和实用性。
针对问题3,登陆台风的中心风力和降水量预测。本文首先通过搜集台风贝碧嘉登陆
后的历史降水量资料,然后根据台风在登陆后的行进过程中降水量及风速的关系,及降
水量与距台风中心距离的关系,建立多元回归模型。然后结合问题二构建的集成机器学
习模型,预测2024年9月16日-18日登陆台风贝碧嘉在行进途中的中心风力及降水量
(见表18)。最后对预测模型和结果进行敏感度分析和稳健性检验,检验其拟合优度判断
模型对原有数据的识别能力。
关键词:台风分类;路径预测;集成机器学习;混合聚类算法;Stacking融合
目录
一、问题重述1
1.1问题背景1
1.2需解决的问题1
二、问题分析2
2.1问题一的分析2
2.2问题二的分析2
2.3问题三的分析2
三、模型假设3
四、符号说明3
五、数据的预处理4
5.1台风相关背景知识及划分标准4
5.1.1台风相关背景知识4
5.1.2台风的划分标准5
5.2样本数据的预处理5
5.2.1数据资料来源5
5.2.2数据指标字段说明6
5.2.3描述性统计6
5.2.4缺失值探索7
5.3数据集特征探索7
5.3.1台风发生的位置信息探索8
5.3.2台风的气压信息探索8
5.3.3台风的运动方向信息探索9
5.3.4台风的移动速度信息探索9
5.4样本数据的结构优化10