基本信息
文件名称:基于定位重复结构算法的DeepWeb数据抽取技术探究与实践.docx
文件大小:35.93 KB
总页数:24 页
更新时间:2026-01-03
总字数:约3.41万字
文档摘要
基于定位重复结构算法的DeepWeb数据抽取技术探究与实践
一、引言
1.1研究背景
随着互联网技术的飞速发展,网络上的数据量呈爆炸式增长。在庞大的网络数据中,DeepWeb(深层网络,又称深网)数据占据着重要地位。DeepWeb是指那些存储在网络数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合,不属于可以被标准搜索引擎索引的表面网络。其内容主要包含通过填写表单形成对后台在线数据库的查询而得到的动态页面、由于缺乏被指向的超链接而没有被搜索引擎索引到的页面、需要注册或其它限制才能访问的内容以及Web上可访问的非网页文件(如图片文件、PDF和Word文档等)。据估算