基本信息
文件名称:基于n - gram的中文文本复制检测:原理、算法与优化.docx
文件大小:36.77 KB
总页数:22 页
更新时间:2026-01-29
总字数:约2.76万字
文档摘要

基于n-gram的中文文本复制检测:原理、算法与优化

一、引言

1.1研究背景与意义

在当今数字化信息爆炸的时代,随着计算机技术、通信技术和网络技术的迅猛发展,网络已成为人们获取信息的核心渠道。据相关数据显示,截至2023年,全球互联网用户数量已超过50亿,海量的中文文本信息在网络上广泛传播。然而,这种信息的快速增长也带来了一系列严峻的问题,其中文本复制现象尤为突出。在学术领域,部分学者为追求学术成果数量,存在抄袭他人研究成果的行为,严重破坏了学术诚信环境。在新闻媒体行业,一些媒体为节省采编成本,未经授权大量复制其他媒体的报道内容,损害了原创媒体的利益,也降低了新闻的真实性和可靠