基本信息
文件名称:基于统计的中文分词国伟00课件讲解.pptx
文件大小:1.75 MB
总页数:9 页
更新时间:2026-01-14
总字数:约小于1千字
文档摘要

基于统计的中文分词主讲教师:国伟

基于统计的分词

基于规则的中文分词常常会遇到歧义问题和未登录词问题。中文歧义问题主要包括两大类。交集型切分歧义:指一个字串中间的某个字或词,不管切分到哪一边都能独立成词,如“打折扣”一词,“打折”和“折扣”可以是两个独立的词语。组合型切分歧义:指一个字串中每个字单独切开或者不切开都能成词,如“将来”一词,可以单独成词,也可以切分为单个字。未登录词也称为生词,即词典中没有出现的词。

基于统计的分词基于统计的分词有效解决了中文分词遇到歧义问题和未登录词问题。基本思想:中文语句中相连的字出现的次数越多,作为词单独使用的次数也越多,语句拆分的可靠性越高,分词的准确