队伍编号
MCB2401090
赛道
(A)
基于集成机器学习模型对台风的分类与路径预测研究
摘要
由于台风的成因复杂,其运动轨迹和影响因素之间存在高度非线性关系,使得台风的预测和分类成为一项极具挑战性的任务。为此本文针对台风的分类与预测的问题展开分析,依据相关性分析模型、混合聚类算法、集成机器学习模型、DTW动态时间规整算法、Stacking融合技术和多元回归模型等方法,通过Python、SPSSPRO、MATLAB、Lingo和SPSS等软件解决了台风类别划分、台风的路径以及登陆台风的中心风力和降水量预测等问题,旨在更好地理解不同类型台风的特点,提高台风路径预测的准确性,为防灾减灾提供科学依据。
为提高数据的精度,本文首先对1945-2023年中国近海台风路径数据进行了清理与预处理。数据清理包括缺失值处理、不平衡样本调整等方法,采用了分箱、插值和标准化等数据处理手段,以优化数据结构。针对数据不平衡问题,采用了SMOTE过采样,以提高分类模型的识别效果,为后续研究台风路径预测及其分类奠定了数据基础。
针对问题1,台风类别划分问题。本文首先通过分析台风特征参数与环境因素的关系,建立台风特征的相关性分析模型,对环境因素的影响程度显著性指标进行加权筛选。其次,基于加权筛选的指标,结合混合聚类算法构建台风分类评价模型。然后以2024年7月和9月登陆我国的台风为例,预测并列出划分的台风类别及其途经的省份(见REF_Ref181144580\h表12),最后分析夏台风与秋台风的区别,显示出季节差异对台风路径及强度的显著影响。
针对问题2,台风路径的预测。本文利用集成机器学习模型,结合气温、气压等多个环境因素,通过GBDT、XGBoost和RUSBoost等模型进行台风路径的回归预测,得到台风贝碧嘉在2024年9月13日-17日每日14点的中心位置坐标(见REF_Ref181145058\h表16)。并使用Stacking融合技术提升预测精度。为验证模型的准确性,通过DTW动态时间规整算法将预测路径与台风贝碧嘉的实际路径进行了相似度对比分析,结果表明模型在路径预测中具有较好的泛化能力和实用性。
针对问题3,登陆台风的中心风力和降水量预测。本文首先通过搜集台风贝碧嘉登陆后的历史降水量资料,然后根据台风在登陆后的行进过程中降水量及风速的关系,及降水量与距台风中心距离的关系,建立多元回归模型。然后结合问题二构建的集成机器学习模型,预测2024年9月16日-18日登陆台风贝碧嘉在行进途中的中心风力及降水量(见REF_Ref181145078\h表18)。最后对预测模型和结果进行敏感度分析和稳健性检验,检验其拟合优度判断模型对原有数据的识别能力。
关键词:台风分类;路径预测;集成机器学习;混合聚类算法;Stacking融合
目录
TOC\o1-3\h\z\u一、问题重述 1
1.1问题背景 1
1.2需解决的问题 1
二、问题分析 2
2.1问题一的分析 2
2.2问题二的分析 2
2.3问题三的分析 2
三、模型假设 3
四、符号说明 3
五、数据的预处理 4
5.1台风相关背景知识及划分标准 4
5.1.1台风相关背景知识 4
5.1.2台风的划分标准 5
5.2样本数据的预处理 5
5.2.1数据资料来源 5
5.2.2数据指标字段说明 6
5.2.3描述性统计 6
5.2.4缺失值探索 7
5.3数据集特征探索 7
5.3.1台风发生的位置信息探索 8
5.3.2台风的气压信息探索 8
5.3.3台风的运动方向信息探索 9
5.3.4台风的移动速度信息探索 9
5.4样本数据的结构优化 10
5.4.1特征缩放 10
5.4.2SMOTE过采样优化 10
六、问题一:基于密度质心的混合聚类算法的台风分类评价研究 12
6.1模型的建立与求解 12
6.1.1台风特征的相关性分析模型 12
6.1.2基于密度质心的混合聚类算法的台风分类评价模型 13
6.1.3聚类算法的评价指标 14
6.1.4模型合理性的评价 14
6.1.5聚类算法的分析对比 15
6.2模型的检验:Kendall‘sW检验 15
6.3结果分析 16
6.3.12024年我国7月和9月台风类别及途经省份 17
6.3.2夏台风与秋台风的区别 17
七、问题二:基于集成机器学习的台风路径预测 18
7.1模型预测的准备 18
7.1.