基本信息
文件名称:区块链与企业网络国家政策数据的可视化分析.docx
文件大小:40.99 KB
总页数:5 页
更新时间:2025-05-18
总字数:约3.91千字
文档摘要

区块链与企业网络国家政策数据的可视化分析

孙国强赵欢王芝芝

摘要:文章采用Python网络爬虫技术在中国政府网采集区块链与企业网络相关数据,使用Jieba库实现分词、去停用词及高频词统计,并绘制高频词条形图,基于TfidfVectorizer库获取分词权重,实现可视化。通过文本挖掘方式获取基于区块链与企业网络相关国家政策新闻的关键词,从而整体把握政策核心内容与潜在联系,为相关人员进一步研究奠定基础。

中图分类号:F062.4?文献标识码:A

文章编号:1004-4914(2024)05-011-03

随着科学技术和网络空间的发展,作为比特币的底层技术,区块链已被广泛应用到各个领域中,成为当前研究的热点。区块链被我国的“十三五”规划作为三项重大任务和重点工程之一,而且在国内,阿里巴巴、腾讯、华为等大型企业纷纷着手区块链技术的应用研究使之落地。尽管区块链技术应用领域颇为广泛,但区块链和企业合作网络结合起来的研究却鲜有学者提及并探究其相关影响。企业发展一直以来受到融资难、融资贵、融资慢等问题的阻碍和制约,尤其是中小企业深受影响。正是由于具备过程可信和去中心化的特点,区块链才能在多利益主体参与的场景下以低成本的方式构建信任基础,目标是重塑社会信用体系。区块链具有“不可篡改、分布式记账、智能合约、透明可溯”等技术属性,可从根本上解决企业网络信息转移和价值交换过程中的搭便车行为,从而降低交易的成本和风险,是解决企业合作问题的有效手段。本文基于Python语言,在中国政府网爬取基于区块链和企业合作网络这一主题的政策新闻并绘制词云图。词云图是通过字体的大小凸显文本中出现频率较高的关键词,可在频数统计的基础上更加美观地展示数据。通过对国家政策关键词进行数据可视化,可以动态把握趋势,为学者进一步研究指明方向。

二、国家政策数据爬取

(一)相关技术

re模块,匹配字符串的模块,唯python独有。正则表达式是对字符串进行模糊匹配,提取所需的字符串部分。该模块基于正则表达式可以实现很多功能,对所有语言通用。

wordcloud库,是第三方库,用于展示词云图。以词语为基本单位,词语的词频越高,在词云图中显示越大。

jieba库,是一款优秀的Python第三方中文分词库,它的库语料以人民日报为基础,冗余度比较低,用于实现分词,返回中文文本分词后的列表变量,支持三种分词模式:精确模式、全模式、搜索引擎模式。精确模式是尽可能把一个句子按照最为可能的分词结果最为准确地分割开来,这样获得的分词结果通常更接近句子原意。本文使用精确分词模式来对国家政策做文本分析。

(二)网页源码抓取

本文通过中国政府网网址进行目标数据的爬取。从中国政府网的政策点击进去,再点高级搜索,然后在搜索栏输入搜索词“区块链与企业网络”,就可以发现有16份中央有关文件和35份国务院文件。将搜索词“区块链”替换成与其意思相近的词语如“智能合约”和“共识机制”。同理,将“企业网络”替换成“企业合作网络”“经济合作”“产业联盟”“集群”“创新网络”“供应链”“模块化网络”与“企业间合作”。之后将两类词语两两组合后进行搜索,整理后统计共有444份政策文件。具体情况见表1。

本文目标网址http:///a.htm?t=zhengce。通过该网址进入政策的高级搜索页面,输入搜索词“区块链与企业网络”。通过分析URL发现q=后面即为搜索的词语。相应的网址页面可借助Python找到,然后就可以抓取网页源码,再提取关键信息。通过网页右击点检查,就可以看到源代码,继而进行相关的一系列操作。

(三)BeautifulSoup解析网页数据

BeautifulSoup模块用于解析html和xml文档中的内容,相比正则表达式,其更好的利用了html这种结构性文档的树状结构,解析起来更加方便。解析的第一步是构建一个BeautifulSoup对象,通过点号操作符,可以直接访问文档中的特定标签。本文通过解析代码,获取所有p标签里面的内容即可获取新闻文本。

(四)数据处理

Python中迄今为止最好的中文分词组件是Jieba分词器,可很好地协助使用者完成潜在主题发现和主题词获取等任务,特别适用于中文文本分类。故而,本文采用Jieba分词器进行政策新闻文本数据的一系列处理。

首先,通过Pandas库的read_excel()方法导入爬取下来的链接即444个URL;其次,循环遍历URL访问对应内容,通过BeautifulSoup中soup.find_all(p)获取网页源代码所有p标签的内容,即所有段落对应的内容,同时采用正则表达式进行数据清洗,如用re.sub(.*?,,paragraphs[i])清洗掉所有‘里面的内容;再次,将处理后的每篇政策新闻放到一个字符串里面,444篇新闻就是444个字符串,把这些字符串放到一