基本信息
文件名称:基于中文标点符号的三重网页文本内容识别及过滤方法.pdf
文件大小:73.41 KB
总页数:8 页
更新时间:2025-03-28
总字数:约3.43千字
文档摘要

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号

CN101035128A

(43)申请公布日2007.09.12

(21)申请号CN200710011057.1

(22)申请日2007.04.18

(71)申请人大连理工大学

地址116024辽宁省大连市甘井子区凌工路2号

(72)发明人宋明秋;吴新涛

(74)专利代理机构大连理工大学专利中心

代理人侯明远

(51)Int.CI

H04L29/06;

G06F17/30;

G06F17/27;

H04L12/24;

权利要求说明书说明书幅图

(54)发明名称)发明名称

基于中文标点符号的三重网页文本内容识别及过滤方法基于中文标点符号的三重网页文本内容识别及过滤方法

(57)摘要

一种基于中文标点符号的三重网页文本内

容识别及过滤方法。该方法针对现有的基于

URL、基于关键字的网页信息过滤方法中存在的滤

准率和滤全率低的问题,提出了一种复合型的基

于URL、基于关键字、以及基于文本向量空间知、基于关键字、以及基于文本向量空间知

识表示方法的网页文本内容过滤方法。采用基于

黑白名单的URL地址过滤方法;采用中文标点符

号的统计特征来有效地去除导航信息、相关链接

信息、广告链接信息、版权信息等网页内容噪声

信息,提取文本内容;采用向量空间模型进行文

本知识表示,通过计算文本向量与不良信息模版

中特征向量间的夹角余弦,与设定的阈值相比

较,确定文本所属类别。该发明可广泛地应用于

网络不良信息的过滤及网页个性化信息服务领

域。

法律状态

法律状态公告日法律状态信息法律状态

2007-09-12公开公开

2007-09-12公开公开

2007-11-07实质审查的生效实质审查的生效

2007-11-07实质审查的生效实质审查的生效

2010-04-21授权授权

2010-04-21授权授权

2019-04-05专利权的终止专利权的终止

权利要求说明书

基于中文标点符号的三重网页文本内容识别及过滤方法的权利要求说明书内容是请下载后查

说明书

基于中文标点符号的三重网页文本内容识别及过滤方法的说明书内容是请下载后查看

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号

CN101035128A

(43)申请公布日2007.09.12

(21)申请号CN200710