基于分位数回归神经网络的学术论文影响力预测研究
摘要
学术论文影响力评价是科学计量学研究中的一个基础性问题,引文指标被广泛用于
衡量论文的影响力。然而,引文的累积需要大量时间,往往在论文发表数年后才能衡量
出其真实的影响力,这导致很多高影响力论文的延迟发现,从而降低了论文的学术价值
与创新性。因此,在论文发表初期就对其影响力进行预测和评估具有重要的理论意义和
现实意义。
为了解决学术论文影响力的预测问题,本文首先对预测现状进行了分析,阐述了相
关概念及预测方法,并对论文影响力在论文自身、初期引用、论文的作者、所发表的期
刊、论文的主题和学术网络六个维度的影响因素进行了分析和归纳。其次,本文使用
Spearman相关性分析和逐步回归法对上述六个维度的影响因素进行特征选择,筛选出包
32
含项特征的最优特征子集,并使用分位数回归神经网络和核密度估计构建预测模型。
然后,本文对论文影响力预测进行实证分析,选取2011-2013年中国知网收录的基础医
学与化学学科的56031篇真实论文为研究样本,分析了分位数回归神经网络模型的实际
7
预测效果,并通过与种基线模型进行对比,证实了分位数回归神经网络模型在论文影
响力预测中所具有的优势。最后,本文在预测模型构建和实证分析的基础上为学术论文
影响力评价提出相应的对策建议。
本文进一步探究了学术论文影响力与其影响因素之间的关系,并将分位数回归神经
网络模型应用于学术论文影响力预测的研究中,拓展了现有的预测方法。通过对学术论
文影响力的预测,能够在一定程度上弥补引文评价中存在的时滞性问题,是对现有学术
论文影响力评价体系的进一步补充,从而为科技政策的制定、论文数据库的管理和科研
人员进行论文筛选提供对策建议。
关键词:学术论文;分位数回归神经网络;影响力预测;特征选择
哈尔滨工程大学硕士学位论文
Abstract
Theinfluenceevaluationofacademicpapersisabasicprobleminscientometrics
research.Citationindexiswidelyusedtomeasuretheinfluenceofpapers.However,the
accumulationofcitationstakesalotoftime,anditisoftenseveralyearsafterthepublication
ofthepapertomeasureitsrealinfluence,whichleadstothedelayinthediscoveryofmany
highimpactpapers,thusreducingtheacademicvalueandinnovationofthepaper.Therefore,
itisofgreattheoreticalandpracticalsignificancetopredictandevaluatetheimpactofthe
paperintheearlystageofpublication.
Inordertosolvetheproblemofpredictingtheinfluenceofacademicpapers,thispaper
firstanalyzesthecurrentsituationoftheprediction,expoundstherelatedconceptsand
predictionmethods,andanalyzesandsummarizestheinfluencingfactorsoftheinfluenceof
papersinsixdimensions:thepaperitself,theinitialcita