大数据分析系统需求
仅為需求基本框架,需要根据贵企业产品、技术路线详细面议。
目录
TOC\o1-3\h\z\u一、系统定位 2
二、功能模块 3
2.1爬虫系统 3
2.1.1数据源 3
2.1.2爬虫系统功能 3
2.2数据处理、存储、计算系统 4
2.2.1数据处理模块 4
2.2.2数据存储模块 4
2.2.3数据计算模块 5
2.3数据分析、可视化系统 9
2.4對外接口 10
2.4.1會员制体系 10
2.4.2其他 10
2.5其他 11
2.5.1数据痕迹 11
2.5.2信息安全 11
2.5.3注意事项 11
1、系统定位
從数据接入到数据应用,我們需要【大数据分析系统】包括几大功能模块:
(1)爬虫系统
(2)数据处理、存储、计算系统
(3)数据人工智能分析、可视化系统
(4)外部接口
其中第(3)模块是关键,需要結合我們企业业务方向建设有关的数學模型,進行人工智能的自動分析。
爬虫系统可以從指定网站自動的進行信息的抓取,對数据库中的已經有詞条進行更新或新建,或者從全站按照关键詞抓取信息,更新数据库中詞条,爬虫搜集到的数据也需要存储到系统中。
数据库系统可以将企业既有资料分库录入系统,生成詞条,詞条之间互相关联,可以实現跳转,可视化查看;存储爬虫得到的数据。数据库中的詞条或者数据源大多是国外的,例如美国,曰本等,波及到的人物或者其他詞条會有多种語言的体現。
系统可以結合爬虫的数据、库中本来的数据按照一定内容生成詞条自身的時间轴,多库之间詞条的的关系图。系统需要与外部互联的接口,包括微信平台,天蝎系统,邮件营销平台,调查問卷分析平台。
2、功能模块
2.1爬虫系统
2.1.1数据源
网站,也許是信息变化不大的静态网站,也也許是信息在实時更新的動态网站,例如博客或者论坛。网站库不定期更新。
数据库,需要模拟登陆,從某些数据库中抓取数据,例如论文或者专利数据库等,也許是從国内或者国外的数据库网站中。
自媒体,例如Facebook,twitter等,需要從中抓取某些個人信息,例如一种人的邮箱,也許需要与企业已經有的天蝎系统結合,從天蝎系统已經分析出的個人信息Excel中抓取所需信息。(可详细商议)
2.1.2爬虫系统功能
爬虫系统需要從指定数据源网站中实時抓取信息,通過实体抽取,和数据库中的詞条進行关联,自動更新数据库中已經有的詞条。
可以设定关键詞,從全站以及所有数据源中抓取信息,進行数据处理後,按照詞条精确匹配,存入数据库;
可以按照顾客指定的关键詞在指定的网站中抓取信息,生成成果。
爬虫得到的信息生成的汇报等可以進行导出。
数据处理在更新或增長詞条時需要将抓取到的信息与詞条中的属性進行匹配,将對应的信息录入。可以是实時更新,自動匹配更新;可以是非实時的,有一定的人工干预。由于库中数据有一大部分是国外的,有某些属性的显示方式并不唯一,需要有一定的匹配规则。
2.2数据处理、存储、计算系统
2.2.1数据处理模块
系统需要可以對导入系统的文档等数据和爬虫得到的数据進行数据的预处理,進行分詞切詞,实体抽取(也許為中英曰文)。需要可以自動增長新詞条,對比既有詞条实現詞条的实時更新;或者也可以非实時更新可以有一定的人工干预,進行詞条的半自動化增長。处理過程需要考虑处理的规则和詞条匹配的规则。
2.2.2数据存储模块
存储在数据库中的数据分為几部分:
构造化数据
分詞条存储在数据库中,詞条分為:调研人物库,专家库,论文库,专利库,领域库,专題库,快讯库。還需要存储詞条的某些非业务属性:詞条的负责人,参与人,時间周期,存储詞条自身的時间轴,上传的联络痕迹等。
非构造化存储
爬虫来的网页,文档(PDF、Word、Excel、PPT、图片、视频)图片,视频。
2.2.3数据计算模块
数据库系统具有如下詞条库:
(1)调研人物库:生成人物简历,信息包括:
照片,姓名。
基本信息:單位,語言,国别,生曰,所在地,曾住地。
联络方式:電话传真邮箱即時通讯方式
教育經历:時间學习單位专业學历/學位
工作經历:時间工作單位职位备注
官方网站:官方人物数据库社會人物数据库
學术状况:研究领域论文状况:包括引用次数的表格和详细论文。专利状况编写書籍参与會议表格所受奖励表格
合作项目:次数跨度波及單位详细合作事件
社會活動:媒体采访政治活動来华交流
国内外自媒体:在国外社交网站上的交友列表
人脉关系:总結(共多少人等)姓名、职位的表格家庭状况
调研总結及合作提议:调研总結合作提议
原始信息来源网站
原始文档
(2)专家库:生成专家简历,包括:
照片,姓名
基本信息