基本信息
文件名称:基于规则+词典+条件随机场的中医医案实体识别研究.pdf
文件大小:3.03 MB
总页数:5 页
更新时间:2025-03-08
总字数:约1.97万字
文档摘要

中医询导排2024年6月第30卷第6期June.2024Vol.30No.6

智能中医引用:谭世雨,杜志慧,余江维基于规则+词典+条件随机场的中医医案实体识别研究[J].中

医药导报,2024,30(6):216-220.

基于规则+词典+条件随机场的中医医案

实体识别研究

谭世雨,杜志慧,余江维

(贵州中医药大学基础医学院,贵州贵阳550025)

[摘要】目的:针对中医医案中实体具有边界不清晰、类别易混淆等难点,提出了基于规则、词典、条件随机

场相结合的实体识别模型。方法:构建中医术语词典,分析医案文本规则,构建特征函数,使用jieba工具对中医

医案进行分词,人工标注医案中的5类实体作为训练集和验证集,实现基于条件随机场的医案实体识别研究;最

后采用准确率、召回率、F1值对模型进行评价,以探究词典、不同实体类别、文本特征对实体识别结果的影响。结

果:模型F1值达到了83.5%,实现了较好的识别效果;词典的加入对实体识别有着显著的促进作用;上下文特征

对于模型识别效果影响最大;不同类别的实体识别结果差异较大,其中“方药”的识别效果最好,其次是“治法”

和“体征”,“证型”与“症状”的识别效果最差。结论:本研究提供了一个有效的实体识别模型,这种方法能够极大

地提高中医医案实体识别的准确度,也为未来的研究提供了有价值的参考。

[关键词]中医医案;命名实体识别;中医术语词典;条件随机场;特征函数;中医药智能化

[中图分类号]TP391.43[文献标识码]A[文章编号]1672-951X(2024)06-0216-05

D0I:10.13862/j.cn43-1446/r.2024.06.042

ResearchonEntityRecognitionofTraditionalChineseMedicineMedical

CasesBasedonRules,Dictionaries,andConditionalRandomFields

TANShiyu,DUZhihui,YUJiangwei

(BasicMedicalCollegeofGuizhouUniversityofTraditionalChineseMedicine,GuiyangGuizhou550025,China)

[Abstract]Objectives:Toaddressthechallengesofunclearboundariesandeasilyconfusedcategoriesof

entitiesintraditionalChinesemedicine(TCM)caserecords,acombinedentityrecognitionmodelbasedon

rules,dictionaries,andconditionalrandomfields(CRF)isproposed.Methods:AChinesemedicineterminology

dictionarywasconstructed,thetextsrulesofmedicalcasewereanalyzed,andthefeaturefunctionswereconstructed.

WordsegmentationofTCMmedicalrecordswasperformedbythejiebatool.Fivecategoriesofentitiesin

medicalrecordscasesweremanuallylabeledastrainingandvalidationsetstoimplementresearchonmedical

caseentityrecognitionbasedonCRF.Finally,theCRFmodelwasev