中医询导排2024年6月第30卷第6期June.2024Vol.30No.6
智能中医引用:谭世雨,杜志慧,余江维基于规则+词典+条件随机场的中医医案实体识别研究[J].中
医药导报,2024,30(6):216-220.
基于规则+词典+条件随机场的中医医案
实体识别研究
谭世雨,杜志慧,余江维
(贵州中医药大学基础医学院,贵州贵阳550025)
[摘要】目的:针对中医医案中实体具有边界不清晰、类别易混淆等难点,提出了基于规则、词典、条件随机
场相结合的实体识别模型。方法:构建中医术语词典,分析医案文本规则,构建特征函数,使用jieba工具对中医
医案进行分词,人工标注医案中的5类实体作为训练集和验证集,实现基于条件随机场的医案实体识别研究;最
后采用准确率、召回率、F1值对模型进行评价,以探究词典、不同实体类别、文本特征对实体识别结果的影响。结
果:模型F1值达到了83.5%,实现了较好的识别效果;词典的加入对实体识别有着显著的促进作用;上下文特征
对于模型识别效果影响最大;不同类别的实体识别结果差异较大,其中“方药”的识别效果最好,其次是“治法”
和“体征”,“证型”与“症状”的识别效果最差。结论:本研究提供了一个有效的实体识别模型,这种方法能够极大
地提高中医医案实体识别的准确度,也为未来的研究提供了有价值的参考。
[关键词]中医医案;命名实体识别;中医术语词典;条件随机场;特征函数;中医药智能化
[中图分类号]TP391.43[文献标识码]A[文章编号]1672-951X(2024)06-0216-05
D0I:10.13862/j.cn43-1446/r.2024.06.042
ResearchonEntityRecognitionofTraditionalChineseMedicineMedical
CasesBasedonRules,Dictionaries,andConditionalRandomFields
TANShiyu,DUZhihui,YUJiangwei
(BasicMedicalCollegeofGuizhouUniversityofTraditionalChineseMedicine,GuiyangGuizhou550025,China)
[Abstract]Objectives:Toaddressthechallengesofunclearboundariesandeasilyconfusedcategoriesof
entitiesintraditionalChinesemedicine(TCM)caserecords,acombinedentityrecognitionmodelbasedon
rules,dictionaries,andconditionalrandomfields(CRF)isproposed.Methods:AChinesemedicineterminology
dictionarywasconstructed,thetextsrulesofmedicalcasewereanalyzed,andthefeaturefunctionswereconstructed.
WordsegmentationofTCMmedicalrecordswasperformedbythejiebatool.Fivecategoriesofentitiesin
medicalrecordscasesweremanuallylabeledastrainingandvalidationsetstoimplementresearchonmedical
caseentityrecognitionbasedonCRF.Finally,theCRFmodelwasev