基本信息
文件名称:西南石油大学2025春季学期《大数据概论》课程期末考核任务报告-演讲稿.docx
文件大小:25.2 KB
总页数:15 页
更新时间:2025-06-15
总字数:约1.33万字
文档摘要

西南石油大学2025春季学期《大数据概论》课程期末考核任务报告-演讲稿

第1张

大家好!今天我将为大家展示西南石油大学《大数据概论》课程期末报告,主题是基于多种机器学习模型的亚马逊股票预测分析。让我们开始吧!

第2张

通过这份目录,我们可以快速把握整个研究的脉络。从数据获取开始,逐步深入到预处理环节,再到三大核心模型的构建过程。每个环节环环相扣,先通过基础数据准备打好地基,再用逻辑回归模型建立基准,随后引入更复杂的随机森林和时间序列模型进行深入挖掘。这种递进式的结构设计,既保证了研究逻辑的严谨性,又能让不同层次的听众都能跟上节奏。

第3张

通过模型对比优化和分析,我们可以深入理解不同算法的表现差异。这部分内容将带我们回顾整个研究过程,从数据探索到最终评估,同时提供完整的参考文献和代码实现细节,确保研究的可复现性。

第4张

研究背景与目标的开篇部分。

第5张

从长江的壮阔水系转向金融市场的数字洪流,让我们聚焦亚马逊这家科技巨头。1998年诞生的亚马逊,如今已成长为横跨电商与云计算的全球霸主,其股价波动牵动着无数投资者的神经——毕竟,谁能准确预判趋势,谁就能在资本浪潮中抢占先机。

但预测股价绝非易事,经济指标、市场情绪、技术革新等变量如同交织的暗流,让股价走势充满不确定性。正因如此,我们引入逻辑回归、LSTM、GRU和随机森林四大模型,基于亚马逊18年的股价数据展开实验。这场横跨机器学习和深度学习的较量,最终目标很明确:为投资者筛选出最可靠的预测利器。

第6张

这一部分聚焦如何通过数据挖掘实现股票预测目标。我们会利用逻辑回归、LSTM、GRU和随机森林四种模型对亚马逊收盘价进行预测,通过对比各项评估指标来筛选最优模型。不同模型在股价预测中各具特色——有的擅长捕捉时间序列规律,有的对异常数据更具鲁棒性,通过系统比较它们的预测表现,能为投资决策提供科学依据。具体操作上,我们将从stoop数据源获取亚马逊股票数据,包括关键的收盘价信息,经过删除空缺值、时间排序等预处理步骤,确保原始数据的准确性和时效性。整个过程就像给数据做体检,只有干净规整的数据才能训练出可靠的预测模型。

第7张

这部分主要介绍了数据来源和基础信息。

第8张

在数据获取阶段,首先需要安装pandas_datareader这个强大的工具包,它能够远程获取金融数据。通过web.DataReader指定平台和股票代码,我们可以轻松获取亚马逊2004-2022年的完整股票信息。

数据预处理是建模的关键环节。这里需要特别注意两个要点:一是删除空缺值,确保数据质量;二是将数据按时间顺序排列,这对循环神经网络捕捉时间序列特征至关重要。

更进一步,我们需要为预测任务构建标签。具体做法是在数据表格中新增label列,比如用前10天的特征来预测第11天的收盘价,这个实际收盘价就是我们的标签值。这样的处理方式为后续建模奠定了坚实基础。

第9张

亚马逊股票数据包含六个关键属性:成交时间记录交易日期,开盘价代表当日首笔成交价格,最高价和最低价反映当天股价波动区间。特别值得注意的是收盘价的计算方式——它是最后一分钟交易的加权平均价,如果当天没有成交,则沿用前一天的收盘价。而成交量以手为单位,国际通用缩写VOL采用1K、1M、1B分别代表千、百万、十亿,这种标准化表达让全球投资者都能快速理解交易规模。这些基础数据看似简单,却是后续建模分析的重要基石。

第10张

翻开亚马逊股票的走势图,那些跳动的数字背后藏着怎样的秘密?通过分析收盘价和成交量的变化趋势,我们不仅能看清过去几年的投资价值,更能像解码时间胶囊一样,预测未来的财富密码。虽然复杂的神经网络能带来高精度预测,但漫长的训练过程就像等待咖啡机研磨精品豆——我们更倾向LSTM、GRU和随机森林这三把利器,它们就像金融市场的瑞士军刀,既能快速给出预测,又能通过模型间的精准较量,为投资决策提供最可靠的导航。

第11张

通过Pearson相关系数分析,我们发现亚马逊股票的开盘价、最高价、最低价和收盘价之间呈现出惊人的一致性,相关系数全部达到1,这种完全正相关的关系在金融数据中实属罕见。更令人意外的是,这四个价格指标与成交量之间的相关性却显得相当微弱,相关系数绝对值普遍偏低。由此可见,虽然价格变动与成交量之间存在某种联系,但这种关联性并不显著。这一发现为我们后续的模型构建提供了重要启示:在预测股价走势时,或许应该将更多注意力集中在价格指标本身的内在规律上。

第12张

数据预处理是建模前的关键步骤,直接影响后续分析的准确性。

第13张

逻辑回归作为一种分类模型,对数据有着特殊的要求——目标变量必须是离散的类别标签。然而,我们面临的原始数据df.Close是连续的收盘价数值,这就产生了一个关键矛盾。为了解决这个问题,我们采用了LabelEncoder这个工具,它