基本信息
文件名称:基于预训练语言模型的实体解析方法研究.pdf
文件大小:4.45 MB
总页数:57 页
更新时间:2025-09-02
总字数:约7.74万字
文档摘要
摘要
实体解析(EntityResolution,ER)是数据治理体系面临的重要挑战,其目的是为了
清除异构数据间的差异,能更好的识别指向相同实体的数据。特别是在数据规模呈指数
级增长的情境下,不同数据库所记录的实体差异性问题日益凸显,其问题具体体现为:
(1)文本表征层面的拼写变体、缩写歧义;(2)结构层面的属性缺失与格式异构;(3)
语义层面的上下文依赖缺失。这些数据差异造成的不一致严重影响着数据的质量,使得
实体解析成为现代信息系统的关键技术。
(1)针对传统方法在多属性关联中的局