摘要
股票价格预测一直以来都是学术界的热点研究问题。传统的计量学模型使用股票
量化数据来预测股价,但股票市场是一个复杂的动态系统,股票价格的影响因素众多。
尤其是随着互联网的飞速发展,使得资本市场投资者更容易受到媒体新闻、股民评论
等主观因素的影响,单纯依赖于金融结构化数据的预测越来越呈现出数据的局限性。
近年来,深度学习等技术的快速发展使得计算机有能力突破以往仅以股票结构化数据
进行预测的研究,在模型性能上得到很大改进。因此,本研究从管理学角度出发,基
于深度学习方法构建多源异构信息融合驱动的混合神经网络股价预测模型,探索多源
信息对股价的影响,为利益相关者的科学决策提供理论指导。本研究的主要内容如下:
第一,针对股票数据高维非线性的特点,构建了一个融合卷积神经网络
(ConvolutionalNeuralNetworks,CNN)和长短期记忆网络(LongShort-TermMemory,
LSTM)的混合神经网络股价预测模型。该模型首先利用CNN挖掘数据的高维特征,
然后利用LSTM学习数据的时序特征;考虑到LSTM在长时间序列中容易丢失序列信
息的问题,利用Attention机制对LSTM的输出进行加权,构建CNN-LSTM-Attention
模型。以“上证50”指数为实验对象与基线模型比较,结果显示CNN-LSTM-Attention
模型具有更好的预测精度,在股价预测中具有一定的优越性。
第二,从社交媒体网络舆情角度出发,在股票量化数据的基础上爬取“股吧”评
Word2VecBi-directionalLong
论用于股价预测。提出一种基于和双向长短期记忆网络(
Short-TermMemory,BiLSTM)的情感分析模型。该模型首先利用Word2vec将文本
转换为考虑语义相似性的词向量,然后利用BiLSTM进行句子级别的情感分析,计算
情感值,构建情感指标,实现文本数据与时序数据的有效关联。该模型能够更好地挖
掘文本的上下文信息,为股票价格预测研究提供有效的投资者情绪指标。
第三,搭建多源异构信息的融合框架,将股票交易数据、技术指标以及股吧文本
504
这三种来源的信息融合起来进行股价预测。以“上证”指数及类股权集中度下的
12支代表性股票为研究对象,对比分析不同数据源对股价的影响,验证网络媒体“投
50
资者情绪”指标的有效性。结果表明,在“上证”股指及不同股权集中度的股票上,
添加网络媒体投资者情绪后的模型预测效果均优于其它对比模型,且对股权集中度低
的模型有更好的优化效果,可以在一定程度上协助投资者做出更好的决策。
关键词:股票预测;情感分析;长短期记忆网络;卷积神经网络;注意力机制
I
II
ABSTRACT
Stockpricepredictionhaslongbeenahotresearchtopicinacademia.Traditional
econometricmodelsusequantitativestockdatatopredictstockprices.However,thestock
marketisacomplexdynamicsystemwheremanyfactorsinfluencestockprices.In
particular,therapiddevelopmentoftheInternethasmadecapitalmarketinvestorsmore
susceptibletosubjectivefactorssuchasmedianews