西南石油大学2025春季学期《大数据概论》课程期末考核任务报告-演讲稿.docx

基本信息

文件名称：西南石油大学2025春季学期《大数据概论》课程期末考核任务报告-演讲稿.docx

文件大小：25.2 KB

总页数：15 页

更新时间：2025-06-15

总字数：约1.33万字

文档摘要

西南石油大学2025春季学期《大数据概论》课程期末考核任务报告-演讲稿

第1张

大家好！今天我将为大家展示西南石油大学《大数据概论》课程期末报告，主题是基于多种机器学习模型的亚马逊股票预测分析。让我们开始吧！

第2张

通过这份目录，我们可以快速把握整个研究的脉络。从数据获取开始，逐步深入到预处理环节，再到三大核心模型的构建过程。每个环节环环相扣，先通过基础数据准备打好地基，再用逻辑回归模型建立基准，随后引入更复杂的随机森林和时间序列模型进行深入挖掘。这种递进式的结构设计，既保证了研究逻辑的严谨性，又能让不同层次的听众都能跟上节奏。

第3张

通过模型对比优化和分析，我们可以深入理解不同算法的表现差异。这部分内容将带我们回顾整个研究过程，从数据探索到最终评估，同时提供完整的参考文献和代码实现细节，确保研究的可复现性。

第4张

研究背景与目标的开篇部分。

第5张

从长江的壮阔水系转向金融市场的数字洪流，让我们聚焦亚马逊这家科技巨头。1998年诞生的亚马逊，如今已成长为横跨电商与云计算的全球霸主，其股价波动牵动着无数投资者的神经——毕竟，谁能准确预判趋势，谁就能在资本浪潮中抢占先机。

但预测股价绝非易事，经济指标、市场情绪、技术革新等变量如同交织的暗流，让股价走势充满不确定性。正因如此，我们引入逻辑回归、LSTM、GRU和随机森林四大模型，基于亚马逊18年的股价数据展开实验。这场横跨机器学习和深度学习的较量，最终目标很明确：为投资者筛选出最可靠的预测利器。

第6张

这一部分聚焦如何通过数据挖掘实现股票预测目标。我们会利用逻辑回归、LSTM、GRU和随机森林四种模型对亚马逊收盘价进行预测，通过对比各项评估指标来筛选最优模型。不同模型在股价预测中各具特色——有的擅长捕捉时间序列规律，有的对异常数据更具鲁棒性，通过系统比较它们的预测表现，能为投资决策提供科学依据。具体操作上，我们将从stoop数据源获取亚马逊股票数据，包括关键的收盘价信息，经过删除空缺值、时间排序等预处理步骤，确保原始数据的准确性和时效性。整个过程就像给数据做体检，只有干净规整的数据才能训练出可靠的预测模型。

第7张

这部分主要介绍了数据来源和基础信息。

第8张

在数据获取阶段，首先需要安装pandas_datareader这个强大的工具包，它能够远程获取金融数据。通过web.DataReader指定平台和股票代码，我们可以轻松获取亚马逊2004-2022年的完整股票信息。

数据预处理是建模的关键环节。这里需要特别注意两个要点：一是删除空缺值，确保数据质量；二是将数据按时间顺序排列，这对循环神经网络捕捉时间序列特征至关重要。

更进一步，我们需要为预测任务构建标签。具体做法是在数据表格中新增label列，比如用前10天的特征来预测第11天的收盘价，这个实际收盘价就是我们的标签值。这样的处理方式为后续建模奠定了坚实基础。

第9张

亚马逊股票数据包含六个关键属性：成交时间记录交易日期，开盘价代表当日首笔成交价格，最高价和最低价反映当天股价波动区间。特别值得注意的是收盘价的计算方式——它是最后一分钟交易的加权平均价，如果当天没有成交，则沿用前一天的收盘价。而成交量以手为单位，国际通用缩写VOL采用1K、1M、1B分别代表千、百万、十亿，这种标准化表达让全球投资者都能快速理解交易规模。这些基础数据看似简单，却是后续建模分析的重要基石。

第10张

翻开亚马逊股票的走势图，那些跳动的数字背后藏着怎样的秘密？通过分析收盘价和成交量的变化趋势，我们不仅能看清过去几年的投资价值，更能像解码时间胶囊一样，预测未来的财富密码。虽然复杂的神经网络能带来高精度预测，但漫长的训练过程就像等待咖啡机研磨精品豆——我们更倾向LSTM、GRU和随机森林这三把利器，它们就像金融市场的瑞士军刀，既能快速给出预测，又能通过模型间的精准较量，为投资决策提供最可靠的导航。

第11张

通过Pearson相关系数分析，我们发现亚马逊股票的开盘价、最高价、最低价和收盘价之间呈现出惊人的一致性，相关系数全部达到1，这种完全正相关的关系在金融数据中实属罕见。更令人意外的是，这四个价格指标与成交量之间的相关性却显得相当微弱，相关系数绝对值普遍偏低。由此可见，虽然价格变动与成交量之间存在某种联系，但这种关联性并不显著。这一发现为我们后续的模型构建提供了重要启示：在预测股价走势时，或许应该将更多注意力集中在价格指标本身的内在规律上。

第12张

数据预处理是建模前的关键步骤，直接影响后续分析的准确性。

第13张

逻辑回归作为一种分类模型，对数据有着特殊的要求——目标变量必须是离散的类别标签。然而，我们面临的原始数据df.Close是连续的收盘价数值，这就产生了一个关键矛盾。为了解决这个问题，我们采用了LabelEncoder这个工具，它